一种基于数据流混合编排的分析模型构建方法及系统技术方案

技术编号:26845072 阅读:20 留言:0更新日期:2020-12-25 13:06
本发明专利技术提供了一种基于数据流混合编排的分析模型构建方法,所述基于数据流混合编排的分析模型构建方法包括以下步骤:拆分处理子任务,接收分析任务的数据流转,并将分析任务按照分析流程拆分为处理子任务;修饰处理子任务,为处理子任务定义:数据输入、数据输出及处理逻辑;封装分析任务,将分析任务封装为编码结构的数据流图;转换语言格式,将数据流图转换为标记语言格式的任务流图;调度执行,将任务流图解析,并进行分发调度执行;生成分析结果,返回调度执行的执行结果,得到分析结果。本发明专利技术还提供了一种基于数据流混合编排的分析模型构建系统。本发明专利技术能够解决了数据分析建模过程中建模方式单一、建模流程复杂、缺少混合运算支持的问题。

【技术实现步骤摘要】
一种基于数据流混合编排的分析模型构建方法及系统
:本专利技术涉及数据分析模型构建
,尤其涉及一种基于数据流混合编排的分析模型构建方法及系统。
技术介绍
:随着万维网、互联网、物联网、云计算、三网融合等IT与通讯技术的迅猛发展,数据的快速增长成了许多行业所共同面对的严峻挑战和难得的机遇,信息社会已经进入了网络化的大数据时代,相较于传统数据,大数据具有体量巨大、模态繁多、增长极快、价值稀疏等特点,而要从大数据挖掘大价值,往往涉及到从预处理、分析挖掘、知识推断、决策研判、可视化交互、领域应用这样冗长的分析链路,这些特点使得传统的分析建模方法效率低且建模系统难以适用。传统的大数据分析建模流程,对于普通业务人员来说,通常会先使用表格等分析工具去记录分析数据,通过对工具中数据的排序、叠加、存储等方式去进行分析业务,这类分析工具的分析流程繁琐,分析过程无法进行持久化记录与可视化展示;并且在分析过程中,由于业务数据规模庞大,导致分析过程中数据处理速度慢,分析效率低,且最终得到的分析结果需要通过人工筛选及整合,消耗了大量的时间成本;传统的分析建模工具如SPASS、Excel、Matlab、SAS等,对数据规模支持有限,功能结构单一,无法同时进行数据接入、数据处理、数据分析、数据评估、可视化展示等一站式分析流程构建。随着大数据人工智能技术的发展,不断涌入出Hadoop、Spark、Tensorflow、PyTorch等分布式计算框架与深度学习框架,这些框架为大数据计算与机器学习提供了较好的平台和框架支持。对分析人员来说,在进行大数据分析建模过程中,针对不同的数据及分析模型往往需要不同框架和语言来进行分析处理才能够达到较好的分析效果,比如在处理小批量的数据集时,只需要单个节点运算避免多节点之间数据传输增加的成本;而对于大批量的数据来说,分布式运算能够通过多机并行的方式进行数据处理,并行处理所带来的性能提升远超过节点之间数据传输的消耗。因此,在进行大数据分析建模过程中,混合编排计算的需求愈加迫切,给现有的建模系统与方法带来了巨大的挑战。因此,本领域亟需一种基于数据流混合编排的分析模型构建方法及系统。有鉴于此,提出本专利技术。
技术实现思路
:本专利技术的目的在于提供一种能够更好使用的一种基于数据流混合编排的分析模型构建方法及系统,以解决现有技术中的至少一项技术问题。具体的,本专利技术的第一方面,提供了一种基于数据流混合编排的分析模型构建方法,所述基于数据流混合编排的分析模型构建方法包括以下步骤:拆分处理子任务,接收分析任务的数据流转,并将分析任务按照分析流程拆分为处理子任务;修饰处理子任务,为处理子任务定义:数据输入、数据输出及处理逻辑;封装分析任务,将分析任务封装为编码结构的数据流图;转换语言格式,将数据流图转换为标记语言格式的任务流图;调度执行,将任务流图解析,并进行分发调度执行;生成分析结果,返回调度执行的执行结果,得到分析结果。采用上述方案,能够有效解决大规模数据分析建模过程中遇到的建模方式单一、建模流程复杂、不易维护、缺少混合运算支持的问题,通过进行大数据分析建模的流程与业务数据流转,将分析建模任务按照数据加载、数据转换、数据预处理、特征工程、模型训练、模型预测、模型评估等流程进行拆解,形成一个数据流分析任务;其次,在数据流图中的每个处理子任务相互独立,可以独立使用不同的语言、计算框架、运行模式等进行处理逻辑实现,并在模型运行时,将数据流图转换为调度引擎能够解析的任务流图;调度过程中,调度引擎基于任务流图进行任务的分发与调度执行,并将任务执行结果返回从而生成最终的分析结果,上述过程不仅在用户交互过程中具有很好的可解释效果,降低用户搭建任务流程的门槛,同时以数据流为中心,以任务流为最终导向的模式,弥补了现有的调度引擎单纯执行工作流程序的缺点,节约了时间成本,极大的提高了用户进行大数据分析建模的效率。优选地,所述拆分处理子任务步骤中,所述分析任务的数据流转包括分析数据集D和分析流程S,所述分析流程S记为S={A1,A2,…,An},其中Ai为分析流程S中的第i个处理子任务。优选地,所述修饰处理子任务步骤中,为拆分处理子任务步骤中所拆分的每个处理子任务An,定义统一标准的数据输入、数据输出及处理逻辑。进一步地,所述修饰处理子任务步骤中为所拆分的每个处理子任务定义的数据输入、数据输出均为文件形式进行读写。进一步地,所述修饰处理子任务步骤中,处理逻辑为传递数据输入、数据输出参数文件的路径,处理子任务的输入、输出节点的个数可根据模块的内部处理逻辑的输入和输出进行确定。进一步地,所述修饰处理子任务步骤中,对每个处理子任务内部的定义可以互相独立。采用上述方案,所述处理子任务的数据输入和数据输出,以模块Ai为例,所对应的数据输入为inputi={ini1,ini2…inij},其中j=input_count,input_count为模块Ai输入节点的个数;模块Ai对应的数据输出为outputi={outi1outi2…outik},其中k=output_count,output_count为模块Ai输出节点的个数;所述处理逻辑为处理子任务的内部处理逻辑,除了需要暴露输入和输出参数之外,其的实现方式可根据所处理的业务数据的特点自由选择不同的编程语言、计算框架、运行模式等来处理具体的业务,每个处理子任务之间的依赖关系基于数据的流转,对于上一个模块的输出数据可以作为其在数据流转过程中下一个模块的数据输入。优选地,所述封装分析任务步骤中,为将分析任务封装为编码结构有向无环的数据流图。进一步地,所述数据流图包括组件节点及边。进一步地,所述封装分析任务步骤中,采用Json格式进行整个数据流图的封装。进一步地,所述封装分析任务步骤中,编码结构采用DataflowGraph,所述组件节点包括模块组件及连线组件。进一步地,所述模块组件包括数据组件及处理组件,所述数据组件对应为数据流图中的数据集,每个数据集包含的属性包括组件的标识、组件坐标、数据存储位置信息;所述处理组件对应数据流图中的处理子任务,每个处理子任务包含的属性包括组件的标识、组件坐标、组件类型、处理子任务参数、处理子任务执行包位置、执行状态的信息。进一步地,所述连线组件用于建立组件之间的输入输出关联关系,因此连线是有方向的,包含的属性包括连线标识,连线的起始位置组件标识,起始位置组件对应的输出点的位置,终止位置组件标识,终止位置组件对应的输入点的位置。采用上述方案,在实际使用中,一个数据流图中,包含了多个模块组件和连线组件,对于每个模块组件和连线关联需要符合以下条件:R1:模块组件的每个输入节点必须关联一条连线;R2:模块组件的每个输入节点,只能关联一条连线,无法关联多条连线;R3:模块组件的输出节点允许关联多条边或不关联边;R4:模块组件的输出节点只能为连线起始位置;R5:数据流图不存在环本文档来自技高网
...

【技术保护点】
1.一种基于数据流混合编排的分析模型构建方法,其特征在于:所述基于数据流混合编排的分析模型构建方法包括以下步骤:/n拆分处理子任务,接收分析任务的数据流转,并将分析任务按照分析流程拆分为处理子任务;/n修饰处理子任务,为处理子任务定义:数据输入、数据输出及处理逻辑;/n封装分析任务,将分析任务封装为编码结构的数据流图;/n转换语言格式,将数据流图转换为标记语言格式的任务流图;/n调度执行,将任务流图解析,并进行分发调度执行;/n生成分析结果,返回调度执行的执行结果,得到分析结果。/n

【技术特征摘要】
1.一种基于数据流混合编排的分析模型构建方法,其特征在于:所述基于数据流混合编排的分析模型构建方法包括以下步骤:
拆分处理子任务,接收分析任务的数据流转,并将分析任务按照分析流程拆分为处理子任务;
修饰处理子任务,为处理子任务定义:数据输入、数据输出及处理逻辑;
封装分析任务,将分析任务封装为编码结构的数据流图;
转换语言格式,将数据流图转换为标记语言格式的任务流图;
调度执行,将任务流图解析,并进行分发调度执行;
生成分析结果,返回调度执行的执行结果,得到分析结果。


2.根据权利要求1所述基于数据流混合编排的分析模型构建方法,其特征在于:所述拆分处理子任务步骤中,所述分析任务的数据流转包括分析数据集D和分析流程S,分析流程S记为S={A1,A2,…,An},其中Ai为分析流程S中的第i个处理子任务。


3.根据权利要求2所述基于数据流混合编排的分析模型构建方法,其特征在于:所述修饰处理子任务步骤中,为拆分处理子任务步骤中所拆分的每个处理子任务An,定义统一标准的数据输入、数据输出及处理逻辑。


4.根据权利要求3所述基于数据流混合编排的分析模型构建方法,其特征在于:所述封装分析任务步骤中,为将分析任务封装为编码结构有向无环的数据流图。


5.根据权利要求4所述基于数据流混合编排的分析模型构...

【专利技术属性】
技术研发人员:陈欣洁李建广余智华袁宝东冯凯
申请(专利权)人:中科天玑数据科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1