一种DAG图计算分布式大数据工作流任务调度平台制造技术

技术编号:33839334 阅读:12 留言:0更新日期:2022-06-16 12:02
本发明专利技术公开了一种DAG图计算分布式大数据工作流任务调度平台,包括:大数据工作流交互分系统,根据DAG图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;节点并行分布调度分系统,将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行,进行分布式并行资源调度与任务调度。调度。调度。

【技术实现步骤摘要】
一种DAG图计算分布式大数据工作流任务调度平台


[0001]本专利技术涉及智能计算大数据调度领域,更具体地说,本专利技术涉及一种DAG图计算分布式大数据工作流任务调度平台。

技术介绍

[0002]现阶段,大数据工作流任务调度一般通过数据筛选清洗等处理后按照前后队列进行顺序调度或进行集中调度,调度效率较低;如何进一步可视化交互处理仍需提高;如何将程序调用接口标准化以及合成工作流进行管控仍待改进;如何进行弹性容错实时工作流处理仍需提高;进行分布式并行资源调度与任务调度仍待完善;因此,有必要提出一种DAG图计算分布式大数据工作流任务调度平台,以至少部分地解决现有技术中存在的问题。

技术实现思路

[0003]在
技术实现思路
部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明;本专利技术的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
[0004]为至少部分地解决上述问题,本专利技术提供了一种DAG图计算分布式大数据工作流任务调度平台,包括:
[0005]大数据工作流交互分系统,根据DAG图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;
[0006]接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;
[0007]任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;
[0008]节点并行分布调度分系统,将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行,进行分布式并行资源调度与任务调度。
[0009]优选的,所述大数据工作流交互分系统包括:
[0010]DAG图作业拓扑子系统,用于通过DAG图描述处理作业拓扑;
[0011]数据处理知识挖掘子系统,用于通过大数据处理,挖掘提取大数据规律知识;
[0012]自动生成算法模型子系统,用于根据大数据规律知识通过自动生成多样化的可视化算法模型库。
[0013]优选的,所述接口标准任务管控分系统包括:
[0014]标准化接口子系统,用于通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;
[0015]工作流合成子系统,用于根据调用接口标准化,通过多种运算合成独立工作流;
[0016]算法库管理子系统,用于通过算法管理控制进行可视化算法模型库管控。
[0017]优选的,所述任务计算执行引擎分系统包括:
[0018]多源数据获取子系统,用于通过多源数据输入进行多种数据源数据获取,多种数据源包括:数据库输入数据源、多任务消息队列输入数据源和多终端逻辑输入数据源;
[0019]弹性容错处理子系统,用于通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理;
[0020]数据传输输出子系统,用于通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面。
[0021]优选的,所述节点并行分布调度分系统包括:
[0022]提交驱动申请子系统,用于通过提交应用程序,调用资源调度器为驱动申请资源;
[0023]应用程序申请子系统,用于通过主节点申请,在驱动申请资源完成后,向主节点为应用程序申请资源;
[0024]执行分布调度子系统,用于通过分布式并行计算,进行分布式并行资源调度与任务调度。
[0025]优选的,所述自动生成算法模型子系统包括:
[0026]知识图谱创建单元,用于将大数据规律知识,按照节点关系规则创建知识图谱;
[0027]可视化模型库单元,用于将知识图谱创建单元知识图谱不同种类的数据可视化,自动交互生成可视化算法模型库;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库。
[0028]优选的,所述算法库管理子系统包括:
[0029]机器学习算法管控单元,用于对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;
[0030]特征变换维度管控单元,用于对特征进行提取、变换、降维和选择管理控制;
[0031]管控构建评估调整单元,用于对管控进行构建、评估和调整机器学习管控工具;
[0032]保存加载模型管控单元,用于保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;
[0033]实用程序管理控制单元,用于对实用程序线性统计及数据处理进行管理控制。
[0034]优选的,所述多源数据获取子系统包括:
[0035]数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
[0036]消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
[0037]多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
[0038]优选的,所述执行分布调度子系统包括:
[0039]资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
[0040]集群分布计算单元,用于在高可用集群中多个DAG图计算节点上进行分布式的并行计算;在高可用集群中多个DAG图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个DAG图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为GPU并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的DAG图,所述DAG图包括待计算节点
数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中的服务器发起的调用,从与所述调用的发起方对应的DAG图中并行读取预设数量的待计算节点数据;其中,在从所述DAG图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
[0041]资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
[0042]优选的,所述资源任务调度单元包括:
[0043]任务调度依赖关系子单元,用于确定多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,包括:大数据工作流交互分系统,根据DAG图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;节点并行分布调度分系统,将工作流任务分配到高可用集群中多个DAG图计算节点上并行运行,进行分布式并行资源调度与任务调度。2.根据权利要求1所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述大数据工作流交互分系统包括:DAG图作业拓扑子系统,用于通过DAG图描述处理作业拓扑;数据处理知识挖掘子系统,用于通过大数据处理,挖掘提取大数据规律知识;自动生成算法模型子系统,用于根据大数据规律知识通过自动生成多样化的可视化算法模型库。3.根据权利要求1所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述接口标准任务管控分系统包括:标准化接口子系统,用于通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;工作流合成子系统,用于根据调用接口标准化,通过多种运算合成独立工作流;算法库管理子系统,用于通过算法管理控制进行可视化算法模型库管控。4.根据权利要求1所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述任务计算执行引擎分系统包括:多源数据获取子系统,用于通过多源数据输入进行多种数据源数据获取,多种数据源包括:数据库输入数据源、多任务消息队列输入数据源和多终端逻辑输入数据源;弹性容错处理子系统,用于通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理;数据传输输出子系统,用于通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面。5.根据权利要求1所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述节点并行分布调度分系统包括:提交驱动申请子系统,用于通过提交应用程序,调用资源调度器为驱动申请资源;应用程序申请子系统,用于通过主节点申请,在驱动申请资源完成后,向主节点为应用程序申请资源;执行分布调度子系统,用于通过分布式并行计算,进行分布式并行资源调度与任务调度。6.根据权利要求2所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述自动生成算法模型子系统包括:知识图谱创建单元,用于将大数据规律知识,按照节点关系规则创建知识图谱;
可视化模型库单元,用于将知识图谱创建单元知识图谱不同种类的数据可视化,自动交互生成可视化算法模型库;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库。7.根据权利要求3所述的一种DAG图计算分布式大数据工作流任务调度平台,其特征在于,所述算法库管理子系统包括:机器学习算法管控单元,用于对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;特征变换维度管控单元,用于对特征进行提取、变换、降维和选择管理控制;管控构建评估调整单元,用于对管控进行构建、评估和调整机器学习管控工具;保存加载模型管控单元,用于保存及加载机器学习管控算法、机器学习管控模型和机器学...

【专利技术属性】
技术研发人员:王军平
申请(专利权)人:北京赛博云睿智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1