一种基于任务可视化拖拽的spark机器学习系统及学习方法技术方案

技术编号:24408944 阅读:46 留言:0更新日期:2020-06-06 08:19
本发明专利技术公开了一种基于任务可视化拖拽的spark机器学习系统及方法,该系统包括流程设计器、流程解析器与流程调度器;所述方法包括将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。

A spark machine learning system and learning method based on task visual drag

【技术实现步骤摘要】
一种基于任务可视化拖拽的spark机器学习系统及学习方法
本专利技术涉及机器学习、数据挖掘、流程控制
,尤其涉及一种基于任务可视化拖拽的spark机器学习系统及学习方法。
技术介绍
随着数据的积累以及数据智能、数据驱动等思想的传播,机器学习算法正在成为一种普世的基础能力往外输出,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,未来随着算法和计算能力的发展,机器学习会在金融、医疗、教育、安全等各个领域有更深层次的应用。现有的机器学习模型的构建流程较为复杂,需要经过特征分析、模型训练、模型验证、模型调优、模型导出、模型加载,而且学习成本也比较高,每个模块都需要编码和调试,对于那些迫切需要构建机器学习系统的组织和个人带来了很大的学习成本和时间成本。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种基于任务可视化拖拽的spark机器学习系统及学习方法。本专利技术的目的通过以下的技术方案来实现:一种基于任务可视化拖拽的spark机器学习系统,包括:包括流程设计器、流程解析器与流程调度器;所述流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。一种基于任务可视化拖拽的spark机器学习方法,包括:A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;B解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;C解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。与现有技术相比,本专利技术的一个或多个实施例可以具有如下优点:本系统提供了可视化拖拽的spark机器学习组件,可以针对具体的业务,拖拽组件,构建数据处理流程,系统一键安装,高效易用,大幅度降低了企业引入数据挖掘系统的成本。能够帮助银行、电商、餐饮、证券公司快速寻找潜在的客户群体,实现最大化营销效果,能够建立高效的分析预警模型,降低企业风险。附图说明图1是基于任务可视化拖拽的spark机器学习系统结构图;图2是基于任务可视化拖拽的spark机器学习方法流程图;图3是组件连接图;图4是每个组件的信息图;图5是机器学习可视化效果图;图6是处理后的可视化效果图;图7是基于任务可视化的机器学习任务流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本专利技术作进一步详细的描述。如图1所示,为基于任务可视化拖拽的spark机器学习系统结构,包括流程设计器、流程解析器与流程调度器;所述流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。上述数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。产品的架构分为数据源,监控和运维管理系统,可视化展示系统,监控和运维管理系统包括了数据接入系统,建模和ETL、数据处理平台、在线分析平台,可视化展示包括了web页面展示、app展示,用户管理平台包括了用户权限控制、分组控制、模板管理。如图2所示本实施例还提供了一种基于任务可视化拖拽的spark机器学习方法,该方法包括以下步骤:步骤10将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;步骤20解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;步骤30解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。数据源组件的作用是供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据、实时数据,可以接受公共数据源的直接导入,包括天气数据、人口分布数据、房地产数据,而且支持第三方接口进行直接对接,提供百度、360搜索、搜狗搜索、友盟的接口对接,另外对于业务数据库例如Mysql、Oracle、SqlServer的对接,支持自定义API对接,例如日志数据、业务数据、大数据文件,支持人工数据对接,包括excel文件、csv文件。数据预处理组件包括排序组件,用于选择特定属性列进行自定义排序,筛选组件,用于对数据进行筛选,将不满足条件的数据过滤掉;设置角色组件,用于给数据设置自变量和因变量供机器学习算法训练;数据映射组件,用于将非数值型数据映射为对应的数值型数据供机器学习算法进行训练;空值处理组件,用于将数据源中的空值数据进行处理,可以将所有的空值过滤掉,或者设置成某些特定的数值;重命名组件,可以对属性列进行重命名。机器学习算法组件包括了机器学习中常用到的分类、聚类、回归、关联算法,其中包括了KNN分类、SVM分类、逻辑回归分类、随机森林分类、神经网络分类、朴素贝叶斯分类、梯度提升树分类、决策树分类、KMeans聚类、幂迭代聚类、LDA、线性回归、保序回归、曲线回归、决策树回归、随机森林回归、梯度提升树回归等算法组件。保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。图3为各组件连接图。对于各个组件在数据库中的配置如表1所示,AnalyseComponentName列表示的是组件名,AnalyseComponentCode表示组件的类型,SparkTaskName则表示的是组件的全类名,AnalyseComponentImg表示的是可视化界面中组件的背景图片。表1本实施例根据用户的需求可以对公共数据进行采集,或者对数据库进行同步,将数据库中的信息作为模型训练的数据,也可以提供接口供用户自定义API进行调用,同时为了简化用户的操作,提供了文本在线上传,可以将用户自己收集好的数据直接上传进行分析。用户可以根据自己的业务需求进行建模和ETL,最终按照设置的业务进行任务调度、ETL、关联合表、追加合表、聚合表、SQL合表本文档来自技高网...

【技术保护点】
1.一种基于任务可视化拖拽的spark机器学习系统,其特征在于,所述系统包括流程设计器、流程解析器与流程调度器;所述/n流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;/n流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;/n流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。/n

【技术特征摘要】
1.一种基于任务可视化拖拽的spark机器学习系统,其特征在于,所述系统包括流程设计器、流程解析器与流程调度器;所述
流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;
流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;
流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。


2.如权利要求1所述的基于任务可视化拖拽的spark机器学习系统,其特征在于,所述数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;
数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;
机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;
保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。


3.一种基于任务可视化拖拽的spark机器学习方法,其特征在于,所述方法包括:
A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;
B解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;
C解析可识别的数据,将构建的机器学习流程提交到spark...

【专利技术属性】
技术研发人员:张文华段飞虎印东敏马学冬冯自强张宏伟
申请(专利权)人:同方知网北京技术有限公司同方知网数字出版技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1