基于数据密集型科学工作流的任务调度与虚拟机整合方法技术

技术编号:19121675 阅读:22 留言:0更新日期:2018-10-10 05:00
本发明专利技术涉及一种基于数据密集型科学工作流的任务调度与虚拟机整合方法,包括以下步骤:读取数据密集型科学工作流,构造以任务为节点、任务间的数据依赖关系为边的有向无环图;确定工作流虚拟机:通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机,并用CPLEX方法进行虚拟机类型的求解;工作流截止期划分:首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包,然后采用基于浮动区间的方法求得工作流截止期;初始化任务调度:在工作流截止期划分的基础上,采用基于深度的任务调度顺序方法;虚拟机租赁成本优化:采用加权融合新租赁时间片预期利用率的PHD方法进行任务调度。

【技术实现步骤摘要】
基于数据密集型科学工作流的任务调度与虚拟机整合方法
本专利技术属于数据密集型科学工作流
,尤其是一种基于数据密集型科学工作流的任务调度与虚拟机整合方法。
技术介绍
随着计算机网络技术的发展,云计算技术给大数据处理提供了新的技术支持和发展契机。数据密集型数据密集型模式是一种以数据为核心的模式,其特性是执行过程中需要不断获取、共享、更新、存储大规模数据,对于某个数据密集型任务,它所要访问的数据甚至可以遍布大型数据中心的任何地方,所以它的执行效率要很大一部分受制于物理主机和存储结点之间的带宽。因为带宽瓶颈、数据访问延迟以及未加优化的数据迁移机制而使得现有的云系统在满足数据密集型应用方面不尽如人意。迄今为止,人们已经提出许多数据密集型科学工作流,2009年,Ghafarian等提出将数据密集型工作流先进行子工作流的划分,然后最小化工作流的数据依赖性。然后根据资源的亲密度进行子工作流的分配。2015年,Zhao等提出了一种用于面向数据密集型应用的能量和最后期限的任务调度方法。在该方法中,首先,数据关联聚类方法将数据集和任务建模为一个二叉树。因此,可以大大减少全球数据传输量,有利于降低SLA违背率。其次,“树”基于任务需求程度的计算任务调度方法(TRD)提出,通过减少主动机的数量,降低全局数据传输的时间消耗,优化计算资源和网络带宽的利用率,提高整个云系统的能源利用率。2016年,Zhao等提出了一种改进的基于数据相关聚类的数据布局方法。在初始化阶段,提出了一种基于数据相关聚类和递归划分的数据聚类方法,并与已有的方法相比较,引入了数据大小因子,提出了一种新的矩阵划分方法。以上方法只是通过对任务进行聚类,从而减少deadline,进而提高虚拟机的利用率。但是总体效果不是很理想。可见,以上经典的方法都存在许多局限性,划分结果并不理想,而且复杂度较高,难以满足大型数据密集型工作流调度和虚拟机成本减低的要求。2015年,Cai等提出了在基于非共享服务的工作流调度与优化。该方法从Pareto解集中挑选成本最低的解作为原关键路径优化问题的解。通过迭代优化多条全关键路径,最小化工作流应用的非共享服务租赁总成本为了增强云环境的各项性能,增加云资源的利用率。2017年,Cai等提出了结合云计算中服务按区间计费的特点,通过对已租赁时间片进行重用,提高资源利用率提出一个任务右移策略和URH方法。实验结果证明这两张策略和规则都能够降低特点类型工作流的资源租赁成本。然而,由于许多工作流应用存在时效性,也就是具有截止期。长期租赁充足的资源虽然能够满足应用需求,但是容易造成大量的资源浪费。综上所述,现有的数据密集型工作流调度方法在准确度和时间复杂度上都存在很大的提升空间。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于数据密集型科学工作流的任务调度与虚拟机整合方法,该方法有利于提高deadline的精确度和降低数据密集型科学工作流的资源租赁成本。本专利技术解决其技术问题是采取以下技术方案实现的:一种基于数据密集型科学工作流的任务调度与虚拟机整合方法,包括以下步骤:步骤1、读取数据密集型科学工作流,构造以任务为节点、任务间的数据依赖关系为边的有向无环图DAG;步骤2、确定工作流虚拟机:通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机,并用CPLEX方法进行虚拟机类型的求解;步骤3、工作流截止期划分:首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包,然后采用基于浮动区间的方法求得工作流截止期;步骤4:初始化任务调度:在工作流截止期划分的基础上,采用基于深度的任务调度顺序方法;步骤5、虚拟机租赁成本优化:采用加权融合新租赁时间片预期利用率的PHD方法进行任务调度。进一步,所述步骤2的具体实现方法为:设αk(k=1,2,...,N)和分别表示任务选取了第K种虚拟机以及该虚拟机的价格在截止期划分阶段,虚拟机采用的计费方式为精确计费而非按区间进行计费,E表示的是采用区间计费模式时虚拟机服务的计费区间的长度,执行任务vi在虚拟机类型α上所需要的总处理时间为Ti,α,此时任务vi在虚拟机类型α上的成本计算方式为Pi,α,Ωi,α=1代表任务vi选择的虚拟机类型α,反之Ωi,α=0,Ei表示的是执行任务vi完毕的结束时间,上述的整数规划模型表示如下:该式表示最小化虚拟机总租赁成本;∑α∈NΩi,α=1,1≤i≤N,该式表示每个任务只选择一种类型的虚拟机;该式表示任务间的偏序约束关系;E0≥∑α∈NT0,αΩ0,α,该式表示任务间的偏序约束关系;Ωi,α∈{0,1},α∈M,该式表示任务是否选择某个类型的虚拟机;EN≤D,该式表示保证工作流总执行时间满足截止期约束;用CPLEX方法进行虚拟机类型的求解法为:设定特定比例avigap=0.25%,如果某一时刻该任务的最优解和分支限界法的下界之间的差值小于avigap,CPLEX则立刻停止执行,那么此时的最好解将被取为CPLEX的近似解并用符号θ表示,θvi表示的是任务vi在解θ中选择虚拟机的类型。进一步,所述步骤3的具体实现方法为:首先,将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包:Tj,a-Ti,a≤120,1≤j≤N,该式表示任务处理时间相差120s以下的进行聚类∑α∈NΩi,α=1,1≤i≤N,该式表示每个任务只选择一种类型的虚拟机Ωi,α∈{0,1},α∈M,该式表示任务是否选择某个类型的虚拟机然后,设当前的关键路径HP={HP[1],HP[2],...HP[l]},l是HP的长度关键路径,关键路径HP的时间间隙为最晚截止时间减去最早开始时间,如果则任务包Vk属于固定任务,Vfix是固定任务包的集合,HP路径上所有任务包的总的时间间隙公式为:上式中,表示HP的时间间隙,其中HP′=HP/Vfix/{HP[l]}方法中的HP[l]的最晚截止时间为截止期,接下来的路径时间间隙按照运行时间的长度比例为非固定的任务包进行分配,分配给任务任务包vi∈HP的时间间隙公式为:在这里,还要进行一次时间间隙是否满足判断,如果也就是说最早开始时间加上分配的时间间隙大于最晚截止时间,则将vi分配的时间间隙改为最晚截止时间减去最早开始时间,然后重新更新任务vi的浮动区间并重新计算vi后面的所有后继任务的最早和最晚时间,直到所有的浮动区间不再更新为止,最后形成的最早结束时间就设为工作流的任务的截止期,用Dvii表示vi的截止期。进一步,所述步骤4的具体实现方法为:定义l为所有的可调度任务包的集合,可调动任务代表所有的前驱已进行调度的任务包,将l初始化为{v0},将任务包vi的深度μvi设定为由v0到vi所经过的最少的任务数量,若l不为空,那么根据任务包的深度把l划分成多个子集,在得到的所有子集中,选择具有最小深度的子集,然后在其中选取有最大最早结束时间的任务,将其作为下一个需要调度的任务,在每次对一个任务包进行调度之后,更新l,使其放入到所有的前驱已调度的任务包的集合中。进一步,所述步骤5的具体实现方法为:(1)计算增加的成本租赁最小时间片方法LMTA:将和分别定义为把vi调度到时需要租赁的租赁区间个数和最大可能要租赁的时间区间的数量:其中,本文档来自技高网
...
基于数据密集型科学工作流的任务调度与虚拟机整合方法

【技术保护点】
1.一种基于数据密集型科学工作流的任务调度与虚拟机整合方法,其特征在于包括以下步骤:步骤1、读取数据密集型科学工作流,构造以任务为节点、任务间的数据依赖关系为边的有向无环图DAG;步骤2、确定工作流虚拟机:通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机,并用CPLEX方法进行虚拟机类型的求解;步骤3、工作流截止期划分:首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包,然后采用基于浮动区间的方法求得工作流截止期;步骤4:初始化任务调度:在工作流截止期划分的基础上,采用基于深度的任务调度顺序方法;步骤5、虚拟机租赁成本优化:采用加权融合新租赁时间片预期利用率的PHD方法进行任务调度。

【技术特征摘要】
1.一种基于数据密集型科学工作流的任务调度与虚拟机整合方法,其特征在于包括以下步骤:步骤1、读取数据密集型科学工作流,构造以任务为节点、任务间的数据依赖关系为边的有向无环图DAG;步骤2、确定工作流虚拟机:通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机,并用CPLEX方法进行虚拟机类型的求解;步骤3、工作流截止期划分:首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包,然后采用基于浮动区间的方法求得工作流截止期;步骤4:初始化任务调度:在工作流截止期划分的基础上,采用基于深度的任务调度顺序方法;步骤5、虚拟机租赁成本优化:采用加权融合新租赁时间片预期利用率的PHD方法进行任务调度。2.根据权利要求1所述的基于数据密集型科学工作流的任务调度与虚拟机整合方法,其特征在于:所述步骤2的具体实现方法为:设αk(k=1,2,...,N)和分别表示任务选取了第K种虚拟机以及该虚拟机的价格在截止期划分阶段,虚拟机采用的计费方式为精确计费而非按区间进行计费,E表示的是采用区间计费模式时虚拟机服务的计费区间的长度,执行任务vi在虚拟机类型α上所需要的总处理时间为Ti,α,此时任务vi在虚拟机类型α上的成本计算方式为Pi,α,Ωi,α=1代表任务vi选择的虚拟机类型α,反之Ωi,α=0,Ei表示的是执行任务vi完毕的结束时间,上述的整数规划模型表示如下:该式表示最小化虚拟机总租赁成本;∑α∈NΩi,α=1,1≤i≤N,该式表示每个任务只选择一种类型的虚拟机;Ei≤Ej-∑α∈NtTi,αΩj,α,该式表示任务间的偏序约束关系;E0≥∑α∈NT0,αΩ0,α,该式表示任务间的偏序约束关系;Ωi,α∈{0,1},α∈M,该式表示任务是否选择某个类型的虚拟机;EN≤D,该式表示保证工作流总执行时间满足截止期约束;用CPLEX方法进行虚拟机类型的求解法为:设定特定比例avigap=0.25%,如果某一时刻该任务的最优解和分支限界法的下界之间的差值小于avigap,CPLEX则立刻停止执行,那么此时的最好解将被取为CPLEX的近似解并用符号θ表示,θvi表示的是任务vi在解θ中选择虚拟机的类型。3.根据权利要求1所述的基于数据密集型科学工作流的任务调度与虚拟机整合方法,其特征在于:所述步骤3的具体实现方法为:首先,将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包:Tj,a-Ti,a≤120,1≤j≤N,该式表示任务处理时间相差120s以下的进行聚类∑α∈NΩi,α=1,1≤i≤N,该式表示每个任务只选择一种类型的虚拟机Ωi,α∈{0,1},α∈M,该式表示任务是否选择某个类型的虚拟机然后,设当前的关键路径HP={HP[1],HP[2],...HP[l]},l是HP的长度关键路径,关键路径HP的时间间隙为最晚截止时间减去最早开始时间,如果则任务包Vk属于固定任务,Vfix是固定任务包的集合...

【专利技术属性】
技术研发人员:熊聪聪冯阔赵青
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1