【技术实现步骤摘要】
本专利技术主要涉及到数据处理,尤其是一种基于备份的跨数据中心dag作业及任务调度方法。
技术介绍
1、为了提供低延迟的服务,同时提升用户体验,如fackbook、google等在全球各地建立了大量的数据中心为用户提供即时服务。大量用户的活动或者日志数据不断地被生成并存储到不同的数据中心。分析和挖掘这些跨数据中心分布的数据能够获得大量有价值的信息,例如:查询用户日志用于商业决策、查询网络日志用于网络攻击检测(例如:dos攻击、信息篡改等)。为了保证数据的可靠性,各大机构通常会将收集到的数据备份到多个数据中心进行存储。根据forrester对106家大型组织的调查表明,绝大多数(77%)的受访组织在三个或更多的站点上进行了数据或应用程序的备份。
2、在并行化数据分析中,一个作业通常被构建成一个有向无环图(dag),有向无环图中的每个节点代表一个任务。每个任务由许多执行相同计算的子任务构成。没有前驱节点的任务被称为入口任务,而没有后继节点的任务被称之为出口任务。任务的执行过程不能违反任务之间的依赖关系。通常,一个作业包含多个入口任
...【技术保护点】
1.基于备份的跨数据中心DAG作业及任务调度方法,其特征在于,包括:
2.根据权利要求1所述的基于备份的跨数据中心DAG作业及任务调度方法,其特征在于,GDDA作业集合Q中的作业k,将作业k表示为一个有向无环图(Nk,Ek),其中Nk和Ek分别表示作业k的任务集合和任务依赖关系集,Nk中的每个任务都由一系列相似的子任务组成,Nk中的每个任务的子任务在输入数据所在的数据中心上并发执行;任务依赖关系集合中的每条边代表任务之间的依赖关系约束,任务依赖关系集合中的边(u,v)∈Ek表示任务u完成之前任务v不能够开始执行;在作业k的有向无环图(Nk,Ek)中,pre
...【技术特征摘要】
1.基于备份的跨数据中心dag作业及任务调度方法,其特征在于,包括:
2.根据权利要求1所述的基于备份的跨数据中心dag作业及任务调度方法,其特征在于,gdda作业集合q中的作业k,将作业k表示为一个有向无环图(nk,ek),其中nk和ek分别表示作业k的任务集合和任务依赖关系集,nk中的每个任务都由一系列相似的子任务组成,nk中的每个任务的子任务在输入数据所在的数据中心上并发执行;任务依赖关系集合中的每条边代表任务之间的依赖关系约束,任务依赖关系集合中的边(u,v)∈ek表示任务u完成之前任务v不能够开始执行;在作业k的有向无环图(nk,ek)中,pred(u,k)表示作业k其任务u的直接前驱节点的集合,succ(u,k)代表了作业k其任务u的直接后继节点的集合,一个没有直接前驱节点的任务称之为入口任务,一个没有直接后继节点的任务被称之为出口任务;gdda作业集合q中各作业的输入数据进行多备份,备份数据存储在多个数据中心上。
3.根据权利要求2所述的基于备份的跨数据中心dag作业及任务调度方法,其特征在于,计算gdda作业集合q中各作业的近似完成时间,包括:
4.根据权利要求3所述的基于备份的跨数据中心dag作业及任务调度方法,其特征在于,所述oct(k,u,i)的计算方式,如下:
5.根据权利要求3或4所述的基于备份的跨数据中心dag作业及任务调度方法,其特征在于,以...
【专利技术属性】
技术研发人员:陈亦婷,何倩,江炳城,刘鹏,刘思远,陈俊奇,王展,贾涵,
申请(专利权)人:桂林电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。