The invention relates to a system and method for modeling and visualization of machine learning training model system including: process designer, for selection according to the user's graphical algorithm component drag operations to create a data flow between the graphical algorithm component of the algorithm, and the generation process description language; process parser for Process Designer generated process description language parsing, learning the corresponding components, and generate the corresponding Spark pipeline; and process scheduler, for learning Spark pipeline submitted to the Spark cluster model is trained. The algorithm components by selecting the corresponding graphics, and drag the establishment of data flow between the algorithms, the generation process description language, and then parsing process description language, creating a learning component of the corresponding node names and attribute based, and generate the corresponding Spark pipeline, and then submitted to the Spark cluster model is trained, we can achieve high quality machine learning modeling.
【技术实现步骤摘要】
一种可视化机器学习训练模型的建模系统和方法
本专利技术属于大数据机器学习
,具体涉及一种可视化机器学习训练器,主要用于帮助用户实现快速的模型训练。
技术介绍
现有的机器学习模型的创建过程非常繁琐,其创建过程通常包括:特征分析、模型训练、模型验证、模型调优、模型导出和模型加载。其中,每个阶段都需要独立进行编码,尤其是创建和分析过程非常繁琐及耗时,需要数据分析师及工程师投入大量的时间。另外,由于每个阶段的交换数据格式不统一,导致模型训练非常耗时,无法实现体系化结果验证。
技术实现思路
为了解决现有技术的上述问题,本专利技术提供一种可视化机器学习训练模型的建模方法,其可以实现高质量的机器学习建模,包括实现可视化的流程设计、可视化的模型验证、可视化的查看中间结果,可以让数据分析师在不进行编码的情况下进行机器学习的训练,可以加快模型的训练。本专利技术还提供一种可视化机器学习训练模型的建模系统,其可以实现高质量的机器学习建模,包括实现可视化的流程设计、可视化的模型验证、可视化的查看中间结果,可以让数据分析师在不进行编码的情况下进行机器学习的训练,可以加快模型的训练。为了达到 ...
【技术保护点】
一种可视化机器学习训练模型的建模系统,其包括:流程设计器,用于根据用户将选择的图形化算法组件拖拽至设计区来建立图形化算法组件中的算法之间的数据流向,并生成流程描述语言;流程解析器,用于对流程设计器生成的流程描述语言进行解析,创建相应的学习组件,并生成相应的Spark学习管道;流程调度器,用于将Spark学习管道提交到Spark集群上进行模型训练。
【技术特征摘要】
1.一种可视化机器学习训练模型的建模系统,其包括:流程设计器,用于根据用户将选择的图形化算法组件拖拽至设计区来建立图形化算法组件中的算法之间的数据流向,并生成流程描述语言;流程解析器,用于对流程设计器生成的流程描述语言进行解析,创建相应的学习组件,并生成相应的Spark学习管道;流程调度器,用于将Spark学习管道提交到Spark集群上进行模型训练。2.如权利要求1所述的可视化机器学习训练模型的建模系统,其特征在于,图形化算法组件包括下列组件中的任一个或任几个:数据源组件,用于供用户选用来在机器学习训练模型中建立读入数据用的数据读取组件;数据预处理组件,用于供用户选用来在机器学习训练模型中建立对数据进行预处理的数据预处理组件;文本分析组件,用于供用户选用来在机器学习训练模型中建立用于文本分析的文本分析组件;机器学习组件,用于供用户选用来在机器学习训练模型中建立用于机器学习的机器学习组件;结果验证组件,用于供用户选用来在机器学习训练模型中建立用于结果验证的结果验证组件。3.如权利要求1所述的可视化机器学习训练模型的建模系统,其特征在于,流程设计器设置有下列模块中的任一个或任几个:算法组件列表模块,用于供列表图形化算法组件;可视化流程画布模块,用于供显示流程设计、模型验证和/或中间结果;算法组件设置区模块,用于供设置相应图形化算法组件的相应属性。4.如权利要求3所述的可视化机器学习训练模型的建模系统,其特征在于:可视化流程画布模块中显示的流程设计包括选用的各图形化算法组件及相互之间的数据流向关系。可视化流程画布模块中还可以显示各图形化算法组件的执行状态。和/或用户可以在可视化流程画布模块中通过操作各图形化算法组件来执行相应的操作。5.如权利要求1所述的可视化机器学习训练模型的建模系统,其特征在于,还包括下列结构中的任一种或任几种:结构1、还包括对训练模型进行保存的模型保存模块;结构2、还包括对模型进行导入的模型导入模块;结构3、图形化算法组件是将预定算法封装形成的;结构4、结构3的基础上,图形化算法组件内部隐藏有预定的操作逻辑;结构5、学习组件是根据节点类名及属性创建的;结构6、Spark学习管道是根据节点的连接属性生成的;结构7、学习管道是依据Spark集群的资源利用情况提交到Spark...
【专利技术属性】
技术研发人员:殷晋,
申请(专利权)人:北京天机数测数据科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。