本发明专利技术公开了一种基于流水线机制的跨中心协同任务动态规划方法,其步骤包括:1)根据协同需求编排数据源和协同模型算法,配置生成跨中心协同计算任务;2)将跨中心协同计算任务按照是否会产生数据迁移行为为原则进行子任务划分,形成DAG有向无环图;3)根据DAG有向无环图,将不同数据源划分到不同子任务之中;4)当子任务T分配有数据源D时,则将子任务T发送到该数据源D所在数据中心执行;对于未分配数据源的子任务T
【技术实现步骤摘要】
一种基于流水线机制的跨中心协同任务动态规划方法
[0001]本专利技术涉及流水线、跨数据中心、协同计算
,提出一种基于流水线机制的跨中心协同任务的动态规划方法。
技术介绍
[0002]典型的交叉学科应用需要融合多学科跨领域科学数据,如黑土生态分析、大气污染治理需融合分析生态数据、大气数据、土壤数据等,这些数据分散存储于不同的数据中心,数据体量大、迁移困难,同时由于安全及隐私性考虑不能公开。传统做法往往需人工拷贝数据后进行融合分析,操作复杂且效率低下。
[0003]同时,“基于流水线机制的跨中心协同计算的编排方法与系统”(专利号:2022101459584)提出了跨中心协同任务的规划方法,但规划方法仅依据数据所在位置进行静态规划,虽提出了动态感知上下游各数据中心计算资源、存储资源、数据体量等情况进行动态规划,但没有给出具体规划方案。
[0004]本申请专利技术人从这一背景出发,提供了一种基于流水线机制的跨中心协同任务的动态规划方法。
技术实现思路
[0005]为提升跨数据中心的协同分析效率,本专利技术提供一种基于流水线机制的跨中心协同任务的动态规划方法,实现面向复杂分析场景的跨数据中心协同任务的高效编排与执行。
[0006]为达到上述目的,本专利技术采用如下技术方案:
[0007]一种基于流水线机制的跨中心协同计算任务的动态规划方法,包括以下步骤:
[0008]1)协同任务编排。用户根据协同需求编排数据源和协同模型算法,配置跨中心协同计算任务。数据中心科研人员将数据源和各模型算法注册到协同网络中;用户根据本身需求,在协同网络中查找所需的数据源、协同模型算法,进行本专利技术的规划处理。
[0009]2)制定任务执行计划。将跨中心协同计算任务按照是否会产生数据迁移行为为原则进行子任务划分。跨中心协同计算任务经子任务划分后会形成高层次DAG有向无环图,其中子任务作为图中节点,子任务的执行顺序作为图中边。
[0010]3)初始化子任务执行节点。根据任务执行计划策略,将不同数据源划分到不同子任务之中。子任务作为最小执行单元,当子任务包含数据源组件时,则会被分发到数据源所在数据中心执行。当子任务不包含数据源组件,则需动态规划执行节点。不同的数据源表现为不同的组件,任务的划分策略是按照Merge操作进行子任务的拆分,故不同数据源划分到不同子任务;因为如果两个数据源在一个子任务中,必须有Merge操作才能实现。
[0011]4)动态规划子任务执行。根据上游子任务执行情况及各数据中心资源情况,动态规划子任务执行节点。
[0012]进一步地,上述方法首先针对协同任务T进行编排。设定协同网络由五个数据中心
节点组成,分别为DataCenter
‑
A、DataCenter
‑
B、DataCenter
‑
C、DataCenter
‑
D、DataCenter
‑
E。其中DataCenter
‑
A、DataCenter
‑
B、DataCenter
‑
C分别注册了Data1、Data2、Data3三个数据源,数据体量分别为Size1、Size2、Size3。用户根据协同分析需求,基于Data1、Data2、Data3三个数据源完成协同任务的编排,如图1所示。
[0013]进一步地,上述方法针对协同任务T制定任务执行计划。首先将跨中心协同计算任务按照是否会产生数据迁移行为为原则进行子任务划分,划分策略见图2左,划分后结果见图2右。设定协同网络中数据量阈值为Xmax,任务执行计划根据数据源差值大小进行合并优化。如子任务T
’
的两上游并行子任务T
i1
、T
i2
所含数据源的数量体量差值小于协同网络中数据量阈值为Xmax,则将该子任务T
’
分配一新的数据中心;;如果子任务T
’
的两上游并行子任务T
i1
、T
i2
所含数据源的数量体量差值大于或等于协同网络中数据量阈值为Xmax,且子任务T
i1
所含数据源的数量体量大于T
i2
所需数据源的数量体量,则将该子任务T
’
合并至T
i1
。合并优化在保证传输少量数据的同时,还能减少跨任务的数据传输。图3展示了上游并行子任务所含数据源的数量体量差值超出阈值的情况下,执行计划优化的结果。
[0014]进一步地,上述方法优化合并后,初始化子任务执行节点。子任务作为网络中最小执行单元,当子任务包含数据源组件时,则会被分发到数据源所在数据中心执行。当子任务不包含数据源组件,则需动态规划执行节点。图4展示了任务执行计划结果示意图。
[0015]进一步地,上述方法按照DAG有向无环图自顶向下方式执行。已确定执行节点的子任务被分发到对应节点执行。对于未分配执行节点的子任务T
’
的分配方法为:首先构建当前协同网络的网络节点队列,初始化子任务T
’
所依赖上游子任务T
i1
、T
i2
在各网络节点产出的数据分布,其他网络节点初始化为0;然后按照数据量大小进行排序,当T
’
所依赖的上游子任务T
i1
、T
i2
产出数据量大小相同时,T
’
调度到协同任务T所包含的网络节点潜在开销较小,该类网络节点排序在前,得出最优执行节点排序。综合考虑网络节点计算资源因素,设置计算资源阈值Cmax,排除计算资源不满足条件节点,返回最优执行节点。所述网络节点为数据中心。图5展示了动态规划策略流程图。
[0016]本专利技术的有益效果如下:
[0017]本专利技术的跨域流水线动态规划方法,能够有效提高跨节点协同技术任务的执行效率和最大化资源利用率。
附图说明
[0018]图1为任务定义流程图。
[0019]图2为任务划分策略流程图。
[0020]图3为任务执行计划优化图。
[0021]图4为任务执行计划结果示意图。
[0022]图5为动态规划策略流程图。
[0023]图6为实施例任务编排示意图。
[0024]图7为实施例任务执行计划图。
[0025]图8为实施例任务执行计划结果图。
[0026]图9为实施例任务动态规划结果图。
具体实施方式
[0027]下面结合附图对本专利技术进行进一步详细描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0028]本实施例提供一种基于流水线机制的跨中心协同任务动态规划方法,具体如下:
[0029]1)用户基于协同网络选取协同数据源和协同模型算法进行任务编排;
[0030]2)针对协同任务制定任务执行计划;
[0031]3)根据任务执行计划,初本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于流水线机制的跨中心协同任务动态规划方法,其步骤包括:1)根据协同需求编排数据源和协同模型算法,配置生成跨中心协同计算任务;2)将所述跨中心协同计算任务按照是否会产生数据迁移行为为原则进行子任务划分,形成DAG有向无环图;其中,子任务为所述DAG有向无环图中的节点,子任务的执行顺序为相关节点之间的边;3)根据所述DAG有向无环图,将不同数据源划分到不同子任务之中;4)当子任务T分配有数据源D时,则将该子任务T发送到该数据源D所在数据中心执行;对于未分配数据源的子任务T
’
,则根据该子任务T
’
的上游子任务执行情况及各数据中心资源情况,确定执行该子任务T
’
的数据中心,然后将该子任务T
’
发送到对应的数据中心执行。2.根据权利要求1所述的方法,其特征在于,每一数据中心分别向协同网络进行注册;注册信息包括数据中心所包含的数据源、数据体量。3.根据权利要求1所述的方法,其特征在于,根据所述DAG有向无环图自顶向下方式执行,将不同数据源划分到不同子任务之中。4.根据权利要求3所述的方法,其特征在于,首先构建当前协同网络的网络节点队列,初始化各网络节点当前所分配子任务所依赖上游数据产出数据分布;然后按照未分配数据源的各子任务所依赖数据量大小对未分配数据源的...
【专利技术属性】
技术研发人员:朱小杰,沈志宏,王华进,周健鹏,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。