一种大数据作业并行调度过程中的处理方法及其系统技术方案

技术编号:13295853 阅读:147 留言:0更新日期:2016-07-09 13:57
本发明专利技术公开了一种大数据作业并行调度过程中的处理方法及其系统,方法包括:通过大数据作业的数据放置获取任务集合及节点集合,并根据任务集合、节点集合及预设的惩罚代价算法,获取惩罚代价取得最小值对应的指派方案;根据惩罚代价等于最小值对应的指派方案,将任务集合的数据指派至所述节点集合,并在节点结合上进行计算得到中间结果;所述节点集合根据节点流量、节点网络传输代价及预设的流量代价算法,获取流量代价取得最小值的数据传输路径,并将所述中间结果从所述节点集合传输至所述任务集合。本发明专利技术通过优化中间数据管理机制,极大降低大数据作业的处理时间,而且有效利用内存资源加快数据块读写速度,减少后继作业读取数据I/O开销。

【技术实现步骤摘要】

本专利技术涉及海量数据元管理及处理
,尤其涉及的是一种大数据作业并行调度过程中的处理方法及其系统
技术介绍
随着社交网络、电子商务、在线视频等新一代互联网应用的蓬勃发展,产生和积累了海量业务数据。Facebook、Yahoo、Google以及淘宝等公司每天都需要处理PB级的大数据(BigData),以分析产品销售记录、Web页面、系统运行日志等信息。云计算技术是对大数据进行分析和处理的主要技术。影响云计算技术处理大数据性能的关键因素是:计算时间、网络传输时间和I/O读取时间。为了减少计算时间,将数据处理作业分成可并行执行的许多子任务,由数据并行作业执行引擎负责调度执行;与之相匹配的是将大数据分割成块,由分布式文件系统负责存储管理和维护,高速并行读取大数据文件,大大较少I/O时间。在目前的大数据处理框架中,数据并行作业执行引擎把中间结果保存在分布式文件系统中,后继作业执行时,再从分布式文件系统中读取中间数据,该方法易于实现。但是,面对大数据的处理,中间结果数据也是海量的,从磁盘上获取中间结果数据,需要耗费大量的性能开销。当多个后继作业需要同一个中间数据作输入时,Hadoop系统设计了固定副本数量存放中间数据的方法,但该方法不能保证中间数据被后继作业快速有效访问并且由于作业子任务指派的数据本地性策略,会导致存放该中间数据的计算节点负载剧增。为了解决这个问题,有人在Max-Min公平调度算法的基础上设计了延迟调度(DelayScheduling),通过推迟调度一部分作业并使这些作业等待合适的计算节点,以达到较高的数据本地性。但是在等待开销较大的情况下,延迟策略会影响作业完成时间。也有人提出并发作业的中间结果放置问题。但只是尽量满足中间结果数据本地性的要求,而没有考虑网络带宽的动态性。实际上,在网络带宽足够高的情况下,过分追求数据本地生反而会影响系统的执行性能。上述方案都在一定程度上解决了大数据作业并行执行问题,但是都有它们不足的地方,(1)随着数据量的增加,中间结果数据计算的时间很长,严重阻碍后续作业的调度;(2)延迟调度虽然能达到数据本地性的需求,但是要等待空闲节点,容易引起死锁问题;(3)中间结果没有充分考虑带宽的动态性问题,容易造成带宽的浪费或拥挤;(4)缺乏高效的内存利用机制。因此,现有技术还有待于改进和发展。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种大数据作业并行调度过程中的处理方法及其系统,通过优化中间数据管理机制,大大的降低了大数据作业的处理时间,而且有效利用内存资源加快数据块读写速度,减少后继作业读取数据时的I/O开销。本专利技术解决技术问题所采用的技术方案如下:一种大数据作业并行调度过程中的处理方法,其中,所述方法包括步骤:A、通过大数据作业的数据放置获取任务集合及节点集合,并根据所述任务集合、所述节点集合及预设的惩罚代价算法,获取惩罚代价取得最小值对应的指派方案;B、根据惩罚代价等于最小值对应的指派方案,将所述任务集合的数据指派至所述节点集合,并在所述节点结合上进行计算得到中间结果;C、所述节点集合根据节点流量、节点网络传输代价及预设的流量代价算法,获取流量代价取得最小值的数据传输路径,并将所述中间结果从所述节点集合传输至所述任务集合。所述大数据作业并行调度过程中的处理方法,其中,所述步骤A之前还包括:S、预先设置用于确定惩罚代价的惩罚代价算法,及用于确定网络传输流量代价的流量代价算法。所述大数据作业并行调度过程中的处理方法,其中,所述步骤A具体包括:A1、通过大数据作业的数据放置获取任务集合及节点集合,并通过将所述任务集合的数据块放置在节点集合中的本地节点,获取初始指派方案;A2、根据所述惩罚代价算法获取初始指派方案的惩罚代价,并判断初始指派方案的惩罚代价是否等于0,当等于0时则执行步骤A3,当不等于0时则执行步骤A4;A3、确定所述初始指派方案为惩罚代价等于最小值对应的指派方案;A4、从最晚空闲的计算节点移动一个任务至所述节点集合中的剩余节点,得到当前指派方案;A5、根据所述惩罚代价算法获取当前指派方案的惩罚代价,并判断当前指派方案的惩罚代价是否等于最小值,当等于最小值时则执行步骤A6,当不等于最小值时则返回执行步骤A4;A6、确定所述当前指派方案为惩罚代价等于最小值对应的指派方案。所述大数据作业并行调度过程中的处理方法,其中,所述步骤C具体包括:C1、获取所述节点集合至所述任务集合的数据传输路径;C2、获取每一数据传输路径的节点流量及网络传输代价,并根据节点流量与网络传输代价之积获取每一数据传输路径的流量代价;C3、获取流量代价取得最小值的数据传输路径,并将所述中间结果从所述节点集合传输至所述任务集合。所述大数据作业并行调度过程中的处理方法,其中,所述指派方案为所述任务集合到所述节点集合的映射。一种大数据作业并行调度过程中的处理系统,其中,包括:方案获取模块,用于通过大数据作业的数据放置获取任务集合及节点集合,并根据所述任务集合、所述节点集合及预设的惩罚代价算法,获取惩罚代价取得最小值对应的指派方案;传输计算模块,用于根据惩罚代价等于最小值对应的指派方案,将所述任务集合的数据指派至所述节点集合,并在所述节点结合上进行计算得到中间结果;路径确定模块,用于所述节点集合根据节点流量、节点网络传输代价及预设的流量代价算法,获取流量代价取得最小值的数据传输路径,并将所述中间结果从所述节点集合传输至所述任务集合。所述大数据作业并行调度过程中的处理系统,其中,还包括:设置模块,用于预先设置用于确定惩罚代价的惩罚代价算法,及用于确定网络传输流量代价的流量代价算法。所述大数据作业并行调度过程中的处理系统,其中,所述方案获取模块具体包括初始方案获取单元、第一控制单元、第一指定单元、当前方案获取单元、第二控制单元及第二指定单元,其中:所述初始方案获取单元,用于通过大数据作业的数据放置获取任务集合及节点集合,并通过将所述任务集合的数据块放置在节点集合中的本地节点,获取初始指派方案;所述第一控制单元,用于根据所述惩罚代价算法获取初始指派方案的惩罚代价,并判断初始指派方案的惩罚代价是否等于0,当等于0时则启动所述第一指定单元,当不等于0时则启动所述当前方案获取单元;本文档来自技高网
...

【技术保护点】
一种大数据作业并行调度过程中的处理方法,其特征在于,所述方法包括步骤:A、通过大数据作业的数据放置获取任务集合及节点集合,并根据所述任务集合、所述节点集合及预设的惩罚代价算法,获取惩罚代价取得最小值对应的指派方案;B、根据惩罚代价等于最小值对应的指派方案,将所述任务集合的数据指派至所述节点集合,并在所述节点结合上进行计算得到中间结果;C、所述节点集合根据节点流量、节点网络传输代价及预设的流量代价算法,获取流量代价取得最小值的数据传输路径,并将所述中间结果从所述节点集合传输至所述任务集合。

【技术特征摘要】
1.一种大数据作业并行调度过程中的处理方法,其特征在于,所述方
法包括步骤:
A、通过大数据作业的数据放置获取任务集合及节点集合,并根据所述
任务集合、所述节点集合及预设的惩罚代价算法,获取惩罚代价取得最小
值对应的指派方案;
B、根据惩罚代价等于最小值对应的指派方案,将所述任务集合的数据
指派至所述节点集合,并在所述节点结合上进行计算得到中间结果;
C、所述节点集合根据节点流量、节点网络传输代价及预设的流量代价
算法,获取流量代价取得最小值的数据传输路径,并将所述中间结果从所
述节点集合传输至所述任务集合。
2.根据权利要求1所述大数据作业并行调度过程中的处理方法,其特
征在于,所述步骤A之前还包括:
S、预先设置用于确定惩罚代价的惩罚代价算法,及用于确定网络传输
流量代价的流量代价算法。
3.根据权利要求1所述大数据作业并行调度过程中的处理方法,其特
征在于,所述步骤A具体包括:
A1、通过大数据作业的数据放置获取任务集合及节点集合,并通过将
所述任务集合的数据块放置在节点集合中的本地节点,获取初始指派方案;
A2、根据所述惩罚代价算法获取初始指派方案的惩罚代价,并判断初
始指派方案的惩罚代价是否等于0,当等于0时则执行步骤A3,当不等于
0时则执行步骤A4;
A3、确定所述初始指派方案为惩罚代价等于最小值对应的指派方案;
A4、从最晚空闲的计算节点移动一个任务至所述节点集合中的剩余节

\t点,得到当前指派方案;
A5、根据所述惩罚代价算法获取当前指派方案的惩罚代价,并判断当
前指派方案的惩罚代价是否等于最小值,当等于最小值时则执行步骤A6,
当不等于最小值时则返回执行步骤A4;
A6、确定所述当前指派方案为惩罚代价等于最小值对应的指派方案。
4.根据权利要求1所述大数据作业并行调度过程中的处理方法,其特
征在于,所述步骤C具体包括:
C1、获取所述节点集合至所述任务集合的数据传输路径;
C2、获取每一数据传输路径的节点流量及网络传输代价,并根据节点
流量与网络传输代价之积获取每一数据传输路径的流量代价;
C3、获取流量代价取得最小值的数据传输路径,并将所述中间结果从
所述节点集合传输至所述任务集合。
5.根据权利要求1所述大数据作业并行调度过程中的处理方法,其特
征在于,所述指派方案为所述任务集合到所述节点集合的映射。
6.一种大数据作业并行调度过程中的处理系统,其特征在于,包括:
方案获取模块,用于通过大数据作业的数据放置获取任务集合及节点
集合,并根据所述任务集合、所述节点集合及预设的惩...

【专利技术属性】
技术研发人员:王巍周龙沙
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1