一种基于任务可视化拖拽的spark机器学习系统及学习方法技术方案

技术编号：24408944 阅读：71 留言：0更新日期：2020-06-06 08:19

本发明专利技术公开了一种基于任务可视化拖拽的spark机器学习系统及方法，该系统包括流程设计器、流程解析器与流程调度器；所述方法包括将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程，并生成流程描述语言；解析用户构建的机器学习流程图，对各个组件之间的关系、输入、输出进行解析，通过设计的算法将流程图翻译为一套调度器可识别的数据；解析可识别的数据，将构建的机器学习流程提交到spark集群进行训练。

A spark machine learning system and learning method based on task visual drag

全部详细技术资料下载

【技术实现步骤摘要】
一种基于任务可视化拖拽的spark机器学习系统及学习方法
本专利技术涉及机器学习、数据挖掘、流程控制
，尤其涉及一种基于任务可视化拖拽的spark机器学习系统及学习方法。
技术介绍
随着数据的积累以及数据智能、数据驱动等思想的传播，机器学习算法正在成为一种普世的基础能力往外输出，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，未来随着算法和计算能力的发展，机器学习会在金融、医疗、教育、安全等各个领域有更深层次的应用。现有的机器学习模型的构建流程较为复杂，需要经过特征分析、模型训练、模型验证、模型调优、模型导出、模型加载，而且学习成本也比较高，每个模块都需要编码和调试，对于那些迫切需要构建机器学习系统的组织和个人带来了很大的学习成本和时间成本。
技术实现思路
为解决上述技术问题，本专利技术的目的是提供一种基于任务可视化拖拽的spark机器学习系统及学习方法。本专利技术的目的通过以下的技术方案来实现：一种基于任务可视化拖拽的spark机器学习系统，包括：包括流程设计...

【技术保护点】
1.一种基于任务可视化拖拽的spark机器学习系统，其特征在于，所述系统包括流程设计器、流程解析器与流程调度器；所述/n流程设计器，用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程，并生成流程描述语言；/n流程解析器，用于解析用户构建的机器学习流程图，对各个组件之间的关系、输入、输出进行解析，并通过设计的算法将流程图翻译为一套调度器可识别的数据；/n流程调度器，解析流程解析器传递过来的数据，将构建的机器学习流程提交到spark集群进行训练。/n

【技术特征摘要】
1.一种基于任务可视化拖拽的spark机器学习系统，其特征在于，所述系统包括流程设计器、流程解析器与流程调度器；所述
流程设计器，用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程，并生成流程描述语言；
流程解析器，用于解析用户构建的机器学习流程图，对各个组件之间的关系、输入、输出进行解析，并通过设计的算法将流程图翻译为一套调度器可识别的数据；
流程调度器，解析流程解析器传递过来的数据，将构建的机器学习流程提交到spark集群进行训练。

2.如权利要求1所述的基于任务可视化拖拽的spark机器学习系统，其特征在于，所述数据源组件，用于供用户选择需要训练的源数据，包括文本数据、数据库数据、离线数据和实时数据；
数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件；
机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法；
保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。

3.一种基于任务可视化拖拽的spark机器学习方法，其特征在于，所述方法包括：
A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程，并生成流程描述语言；
B解析用户构建的机器学习流程图，对各个组件之间的关系、输入、输出进行解析，通过设计的算法将流程图翻译为一套调度器可识别的数据；
C解析可识别的数据，将构建的机器学习流程提交到spark...

【专利技术属性】
技术研发人员：张文华，段飞虎，印东敏，马学冬，冯自强，张宏伟，
申请(专利权)人：同方知网北京技术有限公司，同方知网数字出版技术股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人