一种基于备份的跨数据中心DAG作业及任务调度方法技术

技术编号:45173657 阅读:24 留言:0更新日期:2025-05-09 12:47
一种基于备份的跨数据中心DAG作业及任务调度方法,包括:获取基于备份的跨数据中心DAG作业集合,作业集合中各作业的输入数据分布在跨区域的数据中心上,且输入数据备份存储在多个数据中心中;计算作业集合中各作业的近似完成时间;根据各作业的近似完成时间,按照最短作业优先原则对作业集合中各作业进行排序,得到排序队列;将排序队列中近似完成时间差异小于完成时间差异阈值的作业合并,获得新的调度作业序列;以使所有作业的平均响应时间最小化为目标,构建基于备份的跨数据中心DAG作业完成时间优化模型,确定调度作业序列中所有作业最优的任务放置和调度策略。本发明专利技术可有效降低跨区域DAG类型数据分析作业的平均响应时间。

【技术实现步骤摘要】

本专利技术主要涉及到数据处理,尤其是一种基于备份的跨数据中心dag作业及任务调度方法。


技术介绍

1、为了提供低延迟的服务,同时提升用户体验,如fackbook、google等在全球各地建立了大量的数据中心为用户提供即时服务。大量用户的活动或者日志数据不断地被生成并存储到不同的数据中心。分析和挖掘这些跨数据中心分布的数据能够获得大量有价值的信息,例如:查询用户日志用于商业决策、查询网络日志用于网络攻击检测(例如:dos攻击、信息篡改等)。为了保证数据的可靠性,各大机构通常会将收集到的数据备份到多个数据中心进行存储。根据forrester对106家大型组织的调查表明,绝大多数(77%)的受访组织在三个或更多的站点上进行了数据或应用程序的备份。

2、在并行化数据分析中,一个作业通常被构建成一个有向无环图(dag),有向无环图中的每个节点代表一个任务。每个任务由许多执行相同计算的子任务构成。没有前驱节点的任务被称为入口任务,而没有后继节点的任务被称之为出口任务。任务的执行过程不能违反任务之间的依赖关系。通常,一个作业包含多个入口任务和一个出口任务。为本文档来自技高网...

【技术保护点】

1.基于备份的跨数据中心DAG作业及任务调度方法,其特征在于,包括:

2.根据权利要求1所述的基于备份的跨数据中心DAG作业及任务调度方法,其特征在于,GDDA作业集合Q中的作业k,将作业k表示为一个有向无环图(Nk,Ek),其中Nk和Ek分别表示作业k的任务集合和任务依赖关系集,Nk中的每个任务都由一系列相似的子任务组成,Nk中的每个任务的子任务在输入数据所在的数据中心上并发执行;任务依赖关系集合中的每条边代表任务之间的依赖关系约束,任务依赖关系集合中的边(u,v)∈Ek表示任务u完成之前任务v不能够开始执行;在作业k的有向无环图(Nk,Ek)中,pred(u,k)表示作业...

【技术特征摘要】

1.基于备份的跨数据中心dag作业及任务调度方法,其特征在于,包括:

2.根据权利要求1所述的基于备份的跨数据中心dag作业及任务调度方法,其特征在于,gdda作业集合q中的作业k,将作业k表示为一个有向无环图(nk,ek),其中nk和ek分别表示作业k的任务集合和任务依赖关系集,nk中的每个任务都由一系列相似的子任务组成,nk中的每个任务的子任务在输入数据所在的数据中心上并发执行;任务依赖关系集合中的每条边代表任务之间的依赖关系约束,任务依赖关系集合中的边(u,v)∈ek表示任务u完成之前任务v不能够开始执行;在作业k的有向无环图(nk,ek)中,pred(u,k)表示作业k其任务u的直接前驱节点的集合,succ(u,k)代表了作业k其任务u的直接后继节点的集合,一个没有直接前驱节点的任务称之为入口任务,一个没有直接后继节点的任务被称之为出口任务;gdda作业集合q中各作业的输入数据进行多备份,备份数据存储在多个数据中心上。

3.根据权利要求2所述的基于备份的跨数据中心dag作业及任务调度方法,其特征在于,计算gdda作业集合q中各作业的近似完成时间,包括:

4.根据权利要求3所述的基于备份的跨数据中心dag作业及任务调度方法,其特征在于,所述oct(k,u,i)的计算方式,如下:

5.根据权利要求3或4所述的基于备份的跨数据中心dag作业及任务调度方法,其特征在于,以...

【专利技术属性】
技术研发人员:陈亦婷何倩江炳城刘鹏刘思远陈俊奇王展贾涵
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1