一种数据密集型工作流调度方法及系统技术方案

技术编号:26969900 阅读:29 留言:0更新日期:2021-01-05 23:58
本发明专利技术公开了一种数据密集型工作流调度方法及系统,所述方法包括以下步骤:以工作流中的任务为顶点,根据任务之间的时间关系建立有向边,得到工作流对应的有向无环图;根据计算资源、数据资源和带宽资源,建立数据资源矩阵和带宽矩阵;基于最小数据传输时间的方法,对工作流中任务的执行顺序、计算资源和数据资源进行调度。本发明专利技术通过对工作流关键路径进行分析,得到工作流的关键特征,充分考虑工作流的关键特征,通过使用以数据为中心的算法来减少数据传输时间,将数据密集型工作流程的总体工作量最小化。

【技术实现步骤摘要】
一种数据密集型工作流调度方法及系统
本专利技术属于工作流任务调度
,尤其涉及一种数据密集型工作流调度方法及系统。
技术介绍
随着科学界和企业界中数据密集型工作流应用的出现,如何有效地对数据密集型工作流程进行调度得到了越来越多的关注。数据密集型工作流程需要访问、处理和传输那些可能在不同数据主机上都有副本的大型数据集,由于这些数据集大,执行时间受数据传输成本的限制。要做到最小化这些数据集传输到执行工作流任务的计算源的时间,需要选择适当的调度策略来最大限度地减少数据密集型工作流的总体使用时间和数据传输的时间。数据密集型计算环境由生产、操纵或分析数千兆字节到百万兆字节和超出范围内的数据的应用程序组成。这些数据被组织成数据集,通常存储在大容量存储系统中。来自不同位置的用户可以对数据集进行访问,用户可以创建数据集的本地副本,以减少广域数据传输所带来的延迟,从而提高应用性能。数据网格中聚合了计算、存储和网络资源以提供其组合功能。此外,数据网格为需要访问、处理和传输存储在分布式存储库中的大型数据集的分布式数据密集型应用程序提供了诸如低延迟传输协议本文档来自技高网...

【技术保护点】
1.一种数据密集型工作流调度方法,其特征在于,包括以下步骤:/n以工作流中的任务为顶点,根据任务之间的时间关系建立有向边,得到工作流对应的有向无环图;/n根据计算资源、数据资源和带宽资源,建立数据资源矩阵和带宽矩阵;/n基于最小数据传输时间的方法,对工作流中任务的执行顺序、计算资源和数据资源进行调度。/n

【技术特征摘要】
1.一种数据密集型工作流调度方法,其特征在于,包括以下步骤:
以工作流中的任务为顶点,根据任务之间的时间关系建立有向边,得到工作流对应的有向无环图;
根据计算资源、数据资源和带宽资源,建立数据资源矩阵和带宽矩阵;
基于最小数据传输时间的方法,对工作流中任务的执行顺序、计算资源和数据资源进行调度。


2.如权利要求1所述的一种数据密集型工作流调度方法,其特征在于,若工作流包括多个入口任务或多个退出任务,添加一个零成本伪入口或零成本伪出口,将零成本伪入口分别与多个入口任务连接,将多个退出任务连接至零成本伪出口生成新工作流。


3.如权利要求1所述的一种数据密集型工作流调度方法,其特征在于,所述数据资源矩阵用于记录各个计算主机中包含的数据资源;所述带宽矩阵用于记录计算主机两两之间的带宽。


4.如权利要求1所述的一种数据密集型工作流调度方法,其特征在于,对工作流中任务的执行顺序进行调度包括:
获取每个任务所在的所有路径,根据各个路径的花费,得到每个任务的权重;
获取父任务已完成的未调度任务集,根据权重和时间花费,确定各个任务的优先级。


5.如权利要求4所述的一种数据密集型工作流调度方法,其特征在于,所述得到每个任务的权重包括:
根据工作流相应的有向无环图,计算入口任务Tentry到退出任务Texit之间所有路径的花费;
对于每个任务,获取其所在的所有路径和相应花费,将其中的最大花费记为该任务的权重。


6.如权利要求5所述的一种数据密集型工作流调度方法,其特征在于,确定各个任务的优先级包括:
获取父任务已完...

【专利技术属性】
技术研发人员:徐猛
申请(专利权)人:山东工商学院
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1