基于数据密集型科学工作流的任务调度与虚拟机整合方法技术

技术编号：19121675 阅读：22 留言：0更新日期：2018-10-10 05:00

本发明专利技术涉及一种基于数据密集型科学工作流的任务调度与虚拟机整合方法，包括以下步骤：读取数据密集型科学工作流，构造以任务为节点、任务间的数据依赖关系为边的有向无环图；确定工作流虚拟机：通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机，并用CPLEX方法进行虚拟机类型的求解；工作流截止期划分：首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包，然后采用基于浮动区间的方法求得工作流截止期；初始化任务调度：在工作流截止期划分的基础上，采用基于深度的任务调度顺序方法；虚拟机租赁成本优化：采用加权融合新租赁时间片预期利用率的PHD方法进行任务调度。

全部详细技术资料下载

【技术实现步骤摘要】
基于数据密集型科学工作流的任务调度与虚拟机整合方法
本专利技术属于数据密集型科学工作流
，尤其是一种基于数据密集型科学工作流的任务调度与虚拟机整合方法。
技术介绍
随着计算机网络技术的发展，云计算技术给大数据处理提供了新的技术支持和发展契机。数据密集型数据密集型模式是一种以数据为核心的模式，其特性是执行过程中需要不断获取、共享、更新、存储大规模数据，对于某个数据密集型任务，它所要访问的数据甚至可以遍布大型数据中心的任何地方，所以它的执行效率要很大一部分受制于物理主机和存储结点之间的带宽。因为带宽瓶颈、数据访问延迟以及未加优化的数据迁移机制而使得现有的云系统在满足数据密集型应用方面不尽如人意。迄今为止，人们已经提出许多数据密集型科学工作流，2009年，Ghafarian等提出将数据密集型工作流先进行子工作流的划分，然后最小化工作流的数据依赖性。然后根据资源的亲密度进行子工作流的分配。2015年，Zhao等提出了一种用于面向数据密集型应用的能量和最后期限的任务调度方法。在该方法中，首先，数据关联聚类方法将数据集和任务建模为一个二叉树。因此，可以大大减少全球数据传输量，有利于降低SLA违背率。其次，“树”基于任务需求程度的计算任务调度方法(TRD)提出，通过减少主动机的数量，降低全局数据传输的时间消耗，优化计算资源和网络带宽的利用率，提高整个云系统的能源利用率。2016年，Zhao等提出了一种改进的基于数据相关聚类的数据布局方法。在初始化阶段，提出了一种基于数据相关聚类和递归划分的数据聚类方法，并与已有的方法相比较，引入了数据大小因子，提出了一种新的矩阵划...
基于数据密集型科学工作流的任务调度与虚拟机整合方法

【技术保护点】
1.一种基于数据密集型科学工作流的任务调度与虚拟机整合方法，其特征在于包括以下步骤：步骤1、读取数据密集型科学工作流，构造以任务为节点、任务间的数据依赖关系为边的有向无环图DAG；步骤2、确定工作流虚拟机：通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机，并用CPLEX方法进行虚拟机类型的求解；步骤3、工作流截止期划分：首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包，然后采用基于浮动区间的方法求得工作流截止期；步骤4：初始化任务调度：在工作流截止期划分的基础上，采用基于深度的任务调度顺序方法；步骤5、虚拟机租赁成本优化：采用加权融合新租赁时间片预期利用率的PHD方法进行任务调度。

【技术特征摘要】
1.一种基于数据密集型科学工作流的任务调度与虚拟机整合方法，其特征在于包括以下步骤：步骤1、读取数据密集型科学工作流，构造以任务为节点、任务间的数据依赖关系为边的有向无环图DAG；步骤2、确定工作流虚拟机：通过获取每个任务执行的确切处理时间选择出该工作流相对最适合的虚拟机，并用CPLEX方法进行虚拟机类型的求解；步骤3、工作流截止期划分：首先将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包，然后采用基于浮动区间的方法求得工作流截止期；步骤4：初始化任务调度：在工作流截止期划分的基础上，采用基于深度的任务调度顺序方法；步骤5、虚拟机租赁成本优化：采用加权融合新租赁时间片预期利用率的PHD方法进行任务调度。2.根据权利要求1所述的基于数据密集型科学工作流的任务调度与虚拟机整合方法，其特征在于：所述步骤2的具体实现方法为：设αk(k＝1,2,...,N)和分别表示任务选取了第K种虚拟机以及该虚拟机的价格在截止期划分阶段，虚拟机采用的计费方式为精确计费而非按区间进行计费，E表示的是采用区间计费模式时虚拟机服务的计费区间的长度，执行任务vi在虚拟机类型α上所需要的总处理时间为Ti,α，此时任务vi在虚拟机类型α上的成本计算方式为Pi,α，Ωi,α＝1代表任务vi选择的虚拟机类型α，反之Ωi,α＝0，Ei表示的是执行任务vi完毕的结束时间，上述的整数规划模型表示如下：该式表示最小化虚拟机总租赁成本；∑α∈NΩi,α＝1,1≤i≤N，该式表示每个任务只选择一种类型的虚拟机；Ei≤Ej-∑α∈NtTi,αΩj,α,该式表示任务间的偏序约束关系；E0≥∑α∈NT0,αΩ0,α，该式表示任务间的偏序约束关系；Ωi,α∈{0,1},α∈M，该式表示任务是否选择某个类型的虚拟机；EN≤D，该式表示保证工作流总执行时间满足截止期约束；用CPLEX方法进行虚拟机类型的求解法为：设定特定比例avigap＝0.25％，如果某一时刻该任务的最优解和分支限界法的下界之间的差值小于avigap，CPLEX则立刻停止执行，那么此时的最好解将被取为CPLEX的近似解并用符号θ表示，θvi表示的是任务vi在解θ中选择虚拟机的类型。3.根据权利要求1所述的基于数据密集型科学工作流的任务调度与虚拟机整合方法，其特征在于：所述步骤3的具体实现方法为：首先，将工作流按照数据量大小相似和虚拟机类型相同的任务进行聚类形成n个任务包：Tj,a-Ti,a≤120,1≤j≤N，该式表示任务处理时间相差120s以下的进行聚类∑α∈NΩi,α＝1,1≤i≤N，该式表示每个任务只选择一种类型的虚拟机Ωi,α∈{0,1},α∈M，该式表示任务是否选择某个类型的虚拟机然后，设当前的关键路径HP＝{HP[1],HP[2],...HP[l]}，l是HP的长度关键路径，关键路径HP的时间间隙为最晚截止时间减去最早开始时间，如果则任务包Vk属于固定任务，Vfix是固定任务包的集合...

【专利技术属性】
技术研发人员：熊聪聪，冯阔，赵青，
申请(专利权)人：天津科技大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人