一种基于Spark分布式数据挖掘算法封装与调参方法技术

技术编号:35650636 阅读:14 留言:0更新日期:2022-11-19 16:45
本发明专利技术提供一种基于Spark分布式数据挖掘算法封装与调参方法,对spark机器学习算法抽象出四类通用参数,基于算法配置,完成抽象参数针对性赋值;根据数据存储、算法设置和应用场景,将同一种算法的数据输入参数、算法参数和算法输出参数设置为不同形式;将不同算法运行评估结果存储为算法执行结果表,对抽象参数不同赋值后,监控算法每次调用记录及其评估结果后自定义辅助输出;通过监控辅助输出对算法完成调参,获取运行效果。本发明专利技术将算法的调参与输入数据、硬件条件、软件环境相分离,通过配置完善算法实体;算法可自定义算法并将其封装打包,支持算法包及其信息的新增与修改;在算法打包时,对其输出结果进行自定义封装。对其输出结果进行自定义封装。对其输出结果进行自定义封装。

【技术实现步骤摘要】
一种基于Spark分布式数据挖掘算法封装与调参方法


[0001]本专利技术属于大数据分析处理
,尤其涉及一种基于Spark分布式数据挖掘算法封装与调参方法。

技术介绍

[0002]随着物联网和大数据的发展,以往看似不相关的数据经过大规模的并行分布式计算处理,变得可以理解,并能产生重要的意义。数据正在提供越来越重要的价值,不仅仅在企业,数据下正成为企业管理变革过程中提供重要决策依据的关键资产,在公共事业领域,数据也正在发挥越来越重要的作用。当前大数据的关键与核心技术集中的数据分析方法和技术上,但大数据分析的结果才是用户最为关心的问题,人类视觉对图形图象的敏感性导致数据不能以其原本的样子向最终用户呈现,因为那会由于误导和复杂性导致理解偏差,直接影响用户的决策过程。而数据的可视化展示,则能通过直观的方式向用户以图形化的形式展现数据。
[0003]当前数据可视化方案主要分为商用解决方案和为特定数据分析和展现业务构建的特殊解决方案。商用解决方案如Microsoft的Excel、PowerBI,IBM Statistics SPSS等专用软件,优点是界面友好功能强大,但是其自带的可视化配置方案固定,无法方便有效地进行定制和扩展,对于数据源也有很严格的要求,很难满足特定的数据展示需求,所以一般用在报表等固定的场合,同时其学习曲线也相对陡峭,并不能有效解决大数据环境下的数据可视化展示问题。而为特定数据分析和展现业务构建的特殊解决方案,会涉及到一个新系统的构建,对于每一个展现业务要分别构建一个新和系统,开发的周期和成本很高,也很不方便,并且这类解决方案通常都是面对专业的研究人员和技术人员,对于特定领域的可视化展示任务,需要特定领域的专业研究人员配合专业的技术开发人员进行编程开发。需要花费大量的时间进行业务需求的确认、模型的建设与算法实现,开发效率低下。

技术实现思路

[0004]本专利技术针对现有技术中的不足,提供一种基于Spark分布式数据挖掘算法封装与调参方法。
[0005]本专利技术提供一种基于Spark分布式数据挖掘算法封装与调参方法,包括:
[0006]基于Spark机器学习算法抽象出数据输入参数、算法参数、算法输出参数和执行器参数;所述数据输入参数拼接完整的数据源,获取算法执行输入数据;所述算法参数构建完整的算法实体,通过可视化设置参数,调参后获取算法执行效果;所述算法输出参数完善算法执行结果后自定义输出,生成算法成功执行后的反馈;执行器参数设置算法执行计算机的CPU和内存,利用集群资源提高计算速度;
[0007]基于算法配置,完成抽象参数针对性赋值;根据数据存储、算法设置和应用场景,将同一种算法的数据输入参数、算法参数和算法输出参数设置为不同形式;
[0008]将不同算法运行评估结果存储为算法执行结果表,对抽象参数不同赋值后,监控
算法每次调用记录及其评估结果后自定义辅助输出;通过监控辅助输出对算法完成调参,获取运行效果。
[0009]进一步地,对随机森林分类/回归算法封装,数据输入参数设置训练数据占比、测试数据占比、数据库、数据表、主键字段、标签字段和特征字段;算法参数设置树的最大深度和树的数量;数据输出参数设置模型文件存储位置;执行器参数设置集群提交作业的硬件参数。
[0010]进一步地,对二分K均值聚类算法封装,数据输入参数设置数据库、数据表、主键字段和特征字段;算法参数设置簇数、最大迭代数和随机数种子;数据输出参数设置类别预测结果;执行器参数设置集群提交作业的硬件参数。
[0011]进一步地,主键字段只有一个字段,特征字段为多个字段;随机森林分类/回归算法输出参数设置为分布式文件系统中模型文件存放路径。
[0012]进一步地,主键字段只有一个字段,特征字段为多个字段;二分K均值聚类算法输出参数为数据仓库自定义聚类结果表。
[0013]进一步地,数据输入参数设定为hive数仓、hdfs文件和excel文件,满足算法输入格式的数据输入形式;算法参数设定为文本直接输入和多固定值选择,满足算法需求的参数形式;算法输出参数设定为PMML文件和hive数仓,满足算法输出格式的数据输出形式;执行器参数设定为文本直接输入,满足替换默认硬件资源的数据输入形式。
[0014]进一步地,赋值随机森林分类/回归算法的数据输入参数、算法参数、算法输出参数和执行器参数;赋值数据输入参数,对训练数据占比、测试数据占比和连续型特征数量阈值的赋值类型为数字,其中训练数据占比与测试数据占比之和为1,取值分别为0.7和0.3;对数据库、数据表、主键字段、标签字段和特征字段的赋值通过业务hive仓库中选取获得;赋值算法参数,对树最大深度、最大装箱数、每个节点最少实例、最小信息增益、检查点间隔、设置采样率、采样种子、树数量和特征子集选取策略根据训练数据的实际情况进行文本赋值;赋值数据输出参数,训练完成的模型转换成PMML格式文件,通过模型存储位置对PMML模型文件的生成路径进行设置,以需求的数据格式输入后实现相关的预测功能;赋值执行器参数,设置CPU和内存的执行器参数配置,spark.total.executor.cores用于设置Spark作业总共使用多少个core,spark.executor.memory用于设置每个Executor进程的内存。
[0015]本专利技术提供一种基于Spark分布式数据挖掘算法封装与调参方法,对spark机器学习算法抽象出四类通用参数,基于算法配置,完成抽象参数针对性赋值;根据数据存储、算法设置和应用场景,将同一种算法的数据输入参数、算法参数和算法输出参数设置为不同形式;将不同算法运行评估结果存储为算法执行结果表,对抽象参数不同赋值后,监控算法每次调用记录及其评估结果后自定义辅助输出;通过监控辅助输出对算法完成调参,获取运行效果。本专利技术将算法的调参与输入数据、硬件条件、软件环境相分离,通过配置完善算法实体;算法的实现依赖于编程环境,可自定义算法并将其封装打包,支持算法包及其信息的新增与修改;不同算法运行时,输出的结果不尽相同;在算法打包时,对其输出结果进行自定义封装。
附图说明
[0016]为了更清楚地说明本专利技术的技术方案,下面将对实施例中所需要使用的附图作简
单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1为本专利技术实施例提供一种基于Spark分布式数据挖掘算法封装与调参方法的流程图。
具体实施方式
[0018]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]如图1所示,本专利技术实施例部分提供一种基于Spark分布式数据挖掘算法封装与调参方法,包括:
[0020]步骤101,基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Spark分布式数据挖掘算法封装与调参方法,其特征在于,包括:基于Spark机器学习算法抽象出数据输入参数、算法参数、算法输出参数和执行器参数;所述数据输入参数拼接完整的数据源,获取算法执行输入数据;所述算法参数构建完整的算法实体,通过可视化设置参数,调参后获取算法执行效果;所述算法输出参数完善算法执行结果后自定义输出,生成算法成功执行后的反馈;执行器参数设置算法执行计算机的CPU和内存,利用集群资源提高计算速度;基于算法配置,完成抽象参数针对性赋值;根据数据存储、算法设置和应用场景,将同一种算法的数据输入参数、算法参数和算法输出参数设置为不同形式;将不同算法运行评估结果存储为算法执行结果表,对抽象参数不同赋值后,监控算法每次调用记录及其评估结果后自定义辅助输出;通过监控辅助输出对算法完成调参,获取运行效果。2.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法,其特征在于,对随机森林分类/回归算法封装,数据输入参数设置训练数据占比、测试数据占比、数据库、数据表、主键字段、标签字段和特征字段;算法参数设置树的最大深度和树的数量;数据输出参数设置模型文件存储位置;执行器参数设置集群提交作业的硬件参数。3.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法,其特征在于,对二分K均值聚类算法封装,数据输入参数设置数据库、数据表、主键字段和特征字段;算法参数设置簇数、最大迭代数和随机数种子;数据输出参数设置类别预测结果;执行器参数设置集群提交作业的硬件参数。4.根据权利要求2所述的基于Spark分布式数据挖掘算法封装与调参方法,其特征在于,主键字段只有一个字段,特征字段为多个字段;随机森林分类/回归算法输出参数设置为分布式文件系统中模型文件存放路径。5.根据权利要...

【专利技术属性】
技术研发人员:袁为捷敬习飞查文杰康书恒潘孙翔
申请(专利权)人:中电鸿信信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1