分布式机器学习可视化装置制造方法及图纸

技术编号:23982303 阅读:46 留言:0更新日期:2020-04-29 11:54
本发明专利技术公开了一种分布式机器学习可视化装置,包括:组件模块、机器学习工作模块、配置模块、日志模块和报告模块,其中,组件模块用于提供拖拽组件以及报告的可查看编辑组件;机器学习工作模块用于为机器学习提供工作区域,允许将拖拽组件拖拽进入本模块,并进行流程图式连接;配置模块用于提供组件配置内容,并根据当前配置动态更新;日志模块,用于提供当前运行状态;报告模块用于在生成报告时,提供当前工作区域内各节点的详情以及运行结果的可视化内容。该装置可以为非机器学习专业人员提供一个门槛低、可视化程度高的一个分布式机器学习平台,并可以有效应对海量数据以及高精度机器学习的问题,简单易实现。

Distributed machine learning visualization device

【技术实现步骤摘要】
分布式机器学习可视化装置
本专利技术涉及大数据机器学习
,特别涉及一种分布式机器学习可视化装置。
技术介绍
当下的机器学习可视化系统多为逐步配置,逐步推进的建模技术,即对机器建模的每一步进行配置、运行,得到结果再推进下一步的过程。仅有较少的平台在机器学习可视化过程中推进了建模一体化技术,在机器学习可视化技术上取得了进展。例如,一种可视化机器学习训练模型的建模方法,包括实现可视化的流程设计、可视化的模型验证、可视化的查看中间结果,可以让数据分析师在不进行编码的情况下进行机器学习的训练。其中流程设计可以拖拽图形化算法组来建立图形化算法组件中的算法之间的数据流向,并生成流程描述语言;继而通过流程解析器,对流程设计器生成的流程描述语言进行解析,创建相应的学习组件和Spark学习管道;再由流程调度器将Spark学习管道提交到Spark集群上进行模型训练。从而实现了高质量机器学习建模。不难发现,在现有的技术中大多数还是将机器学习可视化进行逐步处理,很少以管道化的流程式技术处理。而在为数不多的流程式处理技术中,也是侧重于数据分析方法的建模以及模型评估,而对于能为数据分析提供策略和数据保障的数据探索、数据预处理、特征工程等部分则未能完整的加入到一体化建模流程中。再者,当数据量巨大时,机器学习算法运行耗时也会更久,因此当流程运行中出现问题时,再次从起点运行则会带来重复耗时的问题。同时,对建模以及模型评估之后的总结部分也没有一个完善的获取渠道,只能凭借用户自己的反复查看和观察,未能提供一份易于编辑、易于提取信息的可视化报告,因此带来了建模过程以及模型结果等内容未能得到良好的总结提升和复用问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的目的在于提出一种分布式机器学习可视化装置,该装置可以为非机器学习专业人员提供一个门槛低、可视化程度高的一个分布式机器学习平台,并可以有效应对海量数据以及高精度机器学习的问题,简单易实现。为达到上述目的,本专利技术实施例提出了一种分布式机器学习可视化装置,包括:组件模块,用于提供拖拽组件以及报告的可查看编辑组件,其中,所述拖拽组件包括数据源组件、算法组件、模型组件和项目组件;机器学习工作模块,用于为机器学习提供工作区域,允许将所述拖拽组件拖拽进入本模块,并进行流程图式连接,并包含:配置组件参数、查看当前节点结果、由当前节点开始运行后续机器学习流程、保存模型及生成报告的功能;配置模块,用于提供组件配置内容,并根据当前配置动态更新;日志模块,用于提供当前运行状态;报告模块,用于在生成报告时,提供当前工作区域内各节点的详情以及运行结果的可视化内容,并支持可编辑,查看报告时,支持报告再编辑。本专利技术实施例的分布式机器学习可视化装置,将数据探索,数据预处理,特征工程,机器学习算法,生成模型,模型评估的建模过程pipeline一体化;对机器学习过程结合验证执行和全量数据执行两阶段来实现分布式机器学习pipeline一体化;对建模过程、建模结果等内容动态生成可编辑的可视化报告;从而为非机器学习专业人员提供一个门槛低、可视化程度高的一个分布式机器学习平台,并可以有效应对海量数据以及高精度机器学习的问题,简单易实现。另外,根据本专利技术上述实施例的分布式机器学习可视化装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述数据源组件支持导入csv、eexcel数据,连接数据库导入数据,及已有数据;所述算法组件包括数据探索、数据预处理、特征工程、数据分析、模型评估等模块,同时每一模块含各自的算法,同时对每一个算法有其预设的配置以及操作逻辑;所述模型组件包括用户已保存的模型;所述项目组件包括新建项目和已有项目。进一步地,在本专利技术的一个实施例中,所述机器学习工作模块具体用于机器学习建模pipeline流程构建、机器学习建模pipeline流程监测、机器学习建模pipeline流程翻译、机器学习建模pipeline流程运行、机器学习建模pipeline流程保存、机器学习建模pipeline流程报告和分布式机器学习pipeline流程化。进一步地,在本专利技术的一个实施例中,将pipeline流程中的节点id作为数据对象中的key值,将起始节点放在startNode中,以作为机器学习流程执行的起点,其中,通过对每个节点的pre和next字段来判断当前节点类型,pre代表的是当前节点的前向节点,next代表的是当前节点的后向节点。进一步地,在本专利技术的一个实施例中,当pre的长度大于1时,则当前节点为聚合型节点,需要等待pre中的所有节点的上游流程执行完毕之后才可以执行当前节点;当next的长度大于1时,则所述当前节点为分离型节点,执行完所述当前节点之后,对于next中的所有节点并行执行;当pre与next的长度皆为1时,则所述当前节点为直线型,等待pre中的唯一节点执行完毕,执行所述当前节点,所述当前节点执行完毕,顺序执行next中的唯一节点;当pre长度为0时,表示所述当前节点为开始节点,当next长度为0时,表示当前节点为结束节点。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的分布式机器学习可视化装置的结构示意图;图2为根据本专利技术实施例的分布式机器学习可视化装置的处理流程图;图3为根据本专利技术实施例的机器学习pipeline流程简单示例示意图;图4为根据本专利技术实施例的数据流向示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。本申请是基于专利技术人对以下问题的认识和发现做出的:在互联网应用技术飞速发展的大背景之下,人类社会越发地活跃在互联网上,并且在各种网站、社交应用上创造了海量的数据,也因此带来了机器学习技术的蓬勃发展。然而从工作性能来看,面对数据的量级的不断增大,以及对机器学习算法的精准度要求提升,单机的机器学习性能无法满足计算速度和存储容量的需求。从实际操作来看,机器学习技术的操作复杂,起点较高,用户难以掌握;同时机器学习产生的结果也较为生涩,用户难以理解。为了解决上述问题,许多将分布式机器学习与可视化结合的技术开始兴起。在这些机器学习可视化技术中依然存在一些问题:第一、由于机器学习的模型构建包含数据探索,数据预处理,特征工程,数据分析,生成模型,模型评估,模型调优,数据预测等多个步骤,在这个过程中,用户必然有调整参数,重构模型等需求,这将导致用户需要多次推翻模型,从零开始重新搭建的繁琐操作;第二、当用户完成模型构建时,呈现给用户的只是一份模型参数结果,本文档来自技高网
...

【技术保护点】
1.一种分布式机器学习可视化装置,其特征在于,包括:/n组件模块,用于提供拖拽组件以及报告的可查看编辑组件,其中,所述拖拽组件包括数据源组件、算法组件、模型组件和项目组件;/n机器学习工作模块,用于为机器学习提供工作区域,允许将所述拖拽组件拖拽进入本模块,并进行流程图式连接,并包含:配置组件参数、查看当前节点结果、由当前节点开始运行后续机器学习流程、保存模型及生成报告的功能;/n配置模块,用于提供组件配置内容,并根据当前配置动态更新;/n日志模块,用于提供当前运行状态;/n报告模块,用于在生成报告时,提供当前工作区域内各节点的详情以及运行结果的可视化内容,并支持可编辑,查看报告时,支持报告再编辑。/n

【技术特征摘要】
1.一种分布式机器学习可视化装置,其特征在于,包括:
组件模块,用于提供拖拽组件以及报告的可查看编辑组件,其中,所述拖拽组件包括数据源组件、算法组件、模型组件和项目组件;
机器学习工作模块,用于为机器学习提供工作区域,允许将所述拖拽组件拖拽进入本模块,并进行流程图式连接,并包含:配置组件参数、查看当前节点结果、由当前节点开始运行后续机器学习流程、保存模型及生成报告的功能;
配置模块,用于提供组件配置内容,并根据当前配置动态更新;
日志模块,用于提供当前运行状态;
报告模块,用于在生成报告时,提供当前工作区域内各节点的详情以及运行结果的可视化内容,并支持可编辑,查看报告时,支持报告再编辑。


2.根据权利要求1所述的装置,其特征在于,
所述数据源组件支持导入csv、excel数据,连接数据库导入数据,及已有数据;
所述算法组件包括数据探索、数据预处理、特征工程、数据分析、模型评估等模块,同时每一模块含各自的算法,同时对每一个算法有其预设的配置以及操作逻辑;
所述模型组件包括用户已保存的模型;
所述项目组件包括新建项目和已有项目。


3.根据权利要求1所述的装置,其特征在于,所述机器学习工作模块具体用于机器学习建模pipeline流...

【专利技术属性】
技术研发人员:鄂海红宋美娜刘芳周康王晓晖
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1