一种基于Spark分布式数据挖掘算法封装与调参方法技术

技术编号：35650636 阅读：14 留言：0更新日期：2022-11-19 16:45

本发明专利技术提供一种基于Spark分布式数据挖掘算法封装与调参方法，对spark机器学习算法抽象出四类通用参数，基于算法配置，完成抽象参数针对性赋值；根据数据存储、算法设置和应用场景，将同一种算法的数据输入参数、算法参数和算法输出参数设置为不同形式；将不同算法运行评估结果存储为算法执行结果表，对抽象参数不同赋值后，监控算法每次调用记录及其评估结果后自定义辅助输出；通过监控辅助输出对算法完成调参，获取运行效果。本发明专利技术将算法的调参与输入数据、硬件条件、软件环境相分离，通过配置完善算法实体；算法可自定义算法并将其封装打包，支持算法包及其信息的新增与修改；在算法打包时，对其输出结果进行自定义封装。对其输出结果进行自定义封装。对其输出结果进行自定义封装。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark分布式数据挖掘算法封装与调参方法

[0001]本专利技术属于大数据分析处理
，尤其涉及一种基于Spark分布式数据挖掘算法封装与调参方法。

技术介绍

[0002]随着物联网和大数据的发展，以往看似不相关的数据经过大规模的并行分布式计算处理，变得可以理解，并能产生重要的意义。数据正在提供越来越重要的价值，不仅仅在企业，数据下正成为企业管理变革过程中提供重要决策依据的关键资产，在公共事业领域，数据也正在发挥越来越重要的作用。当前大数据的关键与核心技术集中的数据分析方法和技术上，但大数据分析的结果才是用户最为关心的问题，人类视觉对图形图象的敏感性导致数据不能以其原本的样子向最终用户呈现，因为那会由于误导和复杂性导致理解偏差，直接影响用户的决策过程。而数据的可视化展示，则能通过直观的方式向用户以图形化的形式展现数据。
[0003]当前数据可视化方案主要分为商用解决方案和为特定数据分析和展现业务构建的特殊解决方案。商用解决方案如Microsoft的Excel、PowerBI，IBM Statistics SPSS等专用软件，优点是界面友好功能强大，但是其自带的可视化配置方案固定，无法方便有效地进行定制和扩展，对于数据源也有很严格的要求，很难满足特定的数据展示需求，所以一般用在报表等固定的场合，同时其学习曲线也相对陡峭，并不能有效解决大数据环境下的数据可视化展示问题。而为特定数据分析和展现业务构建的特殊解决方案，会涉及到一个新系统的构建，对于每一个展现业务要分别构建一个新和系统，开发的周期和成本很...

【技术保护点】

【技术特征摘要】
1.一种基于Spark分布式数据挖掘算法封装与调参方法，其特征在于，包括：基于Spark机器学习算法抽象出数据输入参数、算法参数、算法输出参数和执行器参数；所述数据输入参数拼接完整的数据源，获取算法执行输入数据；所述算法参数构建完整的算法实体，通过可视化设置参数，调参后获取算法执行效果；所述算法输出参数完善算法执行结果后自定义输出，生成算法成功执行后的反馈；执行器参数设置算法执行计算机的CPU和内存，利用集群资源提高计算速度；基于算法配置，完成抽象参数针对性赋值；根据数据存储、算法设置和应用场景，将同一种算法的数据输入参数、算法参数和算法输出参数设置为不同形式；将不同算法运行评估结果存储为算法执行结果表，对抽象参数不同赋值后，监控算法每次调用记录及其评估结果后自定义辅助输出；通过监控辅助输出对算法完成调参，获取运行效果。2.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法，其特征在于，对随机森林分类/回归算法封装，数据输入参数设置训练数据占比、测试数据占比、数据库、数据表、主键字段、标签字段和特征字段；算法参数设置树的最大深度和树的数量；数据输出参数设置模型文件存储位置；执行器参数设置集群提交作业的硬件参数。3.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法，其特征在于，对二分K均值聚类算法封装，数据输入参数设置数据库、数据表、主键字段和特征字段；算法参数设置簇数、最大迭代数和随机数种子；数据输出参数设置类别预测结果；执行器参数设置集群提交作业的硬件参数。4.根据权利要求2所述的基于Spark分布式数据挖掘算法封装与调参方法，其特征在于，主键字段只有一个字段，特征字段为多个字段；随机森林分类/回归算法输出参数设置为分布式文件系统中模型文件存放路径。5.根据权利要...

【专利技术属性】
技术研发人员：袁为捷，敬习飞，查文杰，康书恒，潘孙翔，
申请(专利权)人：中电鸿信信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人