当前位置: 首页 > 专利查询>南京大学专利>正文

一种应用于云工作流调度的数据预取方法技术

技术编号:11861865 阅读:89 留言:0更新日期:2015-08-12 11:49
一种应用于云工作流调度的数据预取方法,在工作流调度过程中,汇聚活动的多个前驱活动执行的完成时间存在先后次序,当某个前驱活动执行完成后,可以在该资源传输带宽空闲的情况下,预先把某个前驱活动执行完成后输出文件传输到工作流调度过程共同后继所在的资源上,这种优化方法称为数据预取;工作流调度过程中,步骤S1和S2都为数据预取,区别在于数据预取的时机不同;在前驱活动的资源分配时刻,进行数据预取;如果一个活动是某个汇聚活动的前驱活动,那么在分配资源给该前驱活动之后,需进行目标资源的设定,并且将其他已完成的前驱活动的输出文件或数据预先传输到设定的目标资源上。

【技术实现步骤摘要】

本专利技术属于云工作流
,尤其是云工作流
中的调度优化技术,该专利技术可以有效地提高资源的利用率和工作流的执行效率。
技术介绍
在工作流管理系统中,调度模块是其最重要的核心组件之一,它的主要目标是根据云计算资源信息和工作流信息,通过合适的调度策略将工作流活动分配到相应的资源上执行。然而,由于资源的异构性和动态性,使得工作流调度问题变的极其复杂,调度算法的优劣直接影响着活动的执行时间以及资源的利用率。因此,如何设计一个高效的调度方法是工作流的重要研宄方向之一。由于工作流调度问题是NP完全问题,在很多情况下,获得一个最优解对于求解该类问题几乎是不可能的。我们可以使用启发式算法在多项式时间内得出次优解。工作流调度问题已经得到了广泛和深入的研宄,基于多种算法策略和不同的问题假设提出了很多种算法,大致分为两类:静态调度和动态调度。静态调度无法适应资源环境的动态变化,效率低,容错率差,容易造成工作流活动的运行失败,采用这种调度策略的应用很少。动态调度在建模阶段并不绑定具体的资源,而是绑定资源的描述,因此在调度时能根据运行的实际情况,利用合适的资源来执行活动。动态调度算法按照工作流调度策略可以分为两类:全局动态调度算法与实时动态调度算法。著名的有遗传算法,蚁群算法等都属于全局动态调度算法。全局动态调度算法有足够的时间充分利用启发式信息,因而能产生更为有效的调度方案。但是算法要求资源环境是稳定的,同时参与调度的活动参数需准确,这在云计算这一动态变化的环境中是难以实现的。在实时动态调度算法中,列表式调度技术由于其设计简单,而且在大多数情况下能获得次优解,因此,现在很多工作流实时动态调度算法大多采用列表式调度的基本思想来构造启发式调度算法的。现有的文献介绍了多种列表式调度算法:M.Maheswaran等人在((Heterogeneous Computing Workshop〉〉会议上发表〈〈Dynamic matching and schedulingof a class of independent tasks onto heterogeneous computing systems))文章,提出 Min-Min 算法,Max-Min 算法,Sufferage 算法。H.Topcuoglu 等人在《Parallel andDistributed Systems))期干丨J上发表((Performance-effective and low-complexity taskscheduling for heterogeneous computing》,提出 HEFT (Heterogeneous Earliest FinishTime)算法,CPOP (Critical Path on a Processor)算法,M.Rahman 等人在《e-Scienceand Grid Computing〉〉会议上发表〈〈A dynamic critical path algorithm for schedulingscientific workflow applicat1ns on global grids》,提出 DCP-G 算法(DynamicCritical Path for Grids)。在上述算法中,Min-Min、Max-Min和Sufferage算法可以归类为基于活动的优先级调度算法,因为在计算活动优先级的时候,算法只考虑活动本身的参数,并没有考虑整个工作流,而HEFT、CPOP和DCP-G算法则从全局出发,考虑了关键路径对工作流调度的影响,HEFT和CPOP算法虽然采用了关键路径技术,但是其关键路径是在调度产生前就确定的,活动的权值也是固定的。然而,在调度过程中,工作流的关键路径会发生变化,活动的权值也会随之会改变,DCP-G算法引入了动态关键路径概念,在每个调度步骤中,重新计算活动的权值。实验数据表明,强调优先调度位于关键路径上的活动的算法在性能上通常优于其它算法,而在调度过程中,动态计算活动优先级的动态关键路径算法的性能通常优于米用静态关键路径的算法。DCP-G算法就是采用动态关键路径的算法,在绝大数情况下,DCP-G算法的调度性能优于其它调度算法。但是在实验中,我们发现应用DCP-G算法在调度通信密集型工作流时经常出现资源空闲,即资源已经闲置,但该资源上的活动仍然在等待输入数据(即前驱活动的输出数据)而不能执行,我们把这段资源的闲置时间称为空闲时间。在高CCR和低带宽的情况下,输入文件往往需要较长的时间来传输,在这种情况下,空闲时间就会变得很大,这严重影响了资源的利用率,因此我们提出 DCP-DPM(Dynamic Critical Path-Data PrefetchingMechanism,动态关键路径-数据预取机制)算法,引入数据预取机制,用于解决空闲时间的问题,进一步提高工作流的调度效率。数据预取机制不仅限于DCP-G算法。
技术实现思路
本专利技术鉴于上述情况而做出的,其目的在于提供一种云工作流调度的优化方法。基于传统的工作流调度流程,在活动获得资源调度执行之前,根据工作流活动状态,设定目标资源,协调已经完成的活动进行数据预取。以及在活动结束后,判断是否存在目标资源,进行数据预先传输。这样可以显著地减少资源的空闲时间,提高资源利用率和工作流调度效率。本专利技术的技术方案是,一种应用于工作流调度的数据预取方法,在工作流调度过程中,汇聚活动的多个前驱活动执行的完成时间存在先后次序,当某个前驱活动执行完成后,在该资源传输带宽空闲的情况下,预先把某个前驱活动执行完成后的输出文件传输到工作流调度过程共同后继所在的资源上,这种过程称为数据预取:步骤SI和S2都为数据预取,区别在于数据预取的时机不同;步骤SI,在前驱活动的资源分配时刻,进行数据预取;如果一个活动是某个汇聚活动的前驱活动,那么在分配资源给该前驱活动之后,需进行目标资源的设定,并且将其他已完成的前驱活动的输出文件或数据预先传输到设定的目标资源上;步骤S2,在前驱活动执行完成时刻,进行数据预取;判断是否存在目标资源,进行数据预传输;一旦确定目标资源,前驱任务完成之后就能将输出数据提前传输到目标资源。步骤SI进一步细分为以下步骤(如图2(1)所示):步骤S101,活动%被分配到资源Rx,判断活动%是否为汇聚活动(设为ak)的前驱活动,是则转步骤S102,否则转至步骤S105。步骤S102,对于汇聚活动ak的其余前驱活动,判断这些活动中是否存在已完成活动,是则转至步骤S103,否则跳转至步骤S105。步骤S103,判断是否为汇聚活动ak设定目标资源,是则转至步骤S105,否则转至步骤S104.步骤S104,设定活动%所在的资源Rx为汇聚活动a k的目标资源,并将其他处于完成状态的ak的前驱活动的输出数据传输到目标资源Rx上。如果活动之前已经将数据传输至目标资源Rx上,则无需重复传输,转至步骤S105。步骤S105,活动Bi开始执行。步骤S2进一步细分为以下步骤(如图2⑵所示):步骤S201,活动%在资源R x上执行结束,判断活动a 1是否为汇聚活动(设为a k)的前驱活动,是则转步骤S202,否则步骤S2结束。步骤S202,判断是否已为本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104834571.html" title="一种应用于云工作流调度的数据预取方法原文来自X技术">应用于云工作流调度的数据预取方法</a>

【技术保护点】
一种应用于云工作流调度的数据预取方法,其特征在于:在工作流调度过程中,汇聚活动的多个前驱活动执行的完成时间存在先后次序,当某个前驱活动执行完成后,在该资源传输带宽空闲的情况下,预先把某个前驱活动执行完成后输出文件传输到工作流调度过程共同后继所在的资源上,这种优化方法称为数据预取;工作流调度过程中,步骤S1和S2都为数据预取,区别在于数据预取的时机不同;步骤S1,在前驱活动的资源分配时刻,进行数据预取;如果一个活动是某个汇聚活动的前驱活动,那么在分配资源给该前驱活动之后,需进行目标资源的设定,并且将其他已完成的前驱活动的输出文件或数据预先传输到设定的目标资源上;步骤S2,在前驱活动执行完成时刻,进行数据预取;判断是否存在目标资源,进行数据预传输;一旦确定目标资源,前驱任务完成之后就能将输出数据提前传输到目标资源。

【技术特征摘要】

【专利技术属性】
技术研发人员:葛季栋田有朋过晓波李传艺李忠金胡昊骆斌
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1