【技术实现步骤摘要】
任务调度方法、装置、设备及计算机可读存储介质
本专利技术涉及大数据
,尤其涉及任务调度方法、装置、设备及计算机可读存储介质。
技术介绍
MapReduce是一种分布式模型,用于大规模数据集的并行运算,其主要包括三个阶段:Map阶段、Shuffle阶段和Reduce阶段。当一个大数据任务被提交到集群后,在Map阶段它会被拆分成多个小的task(最小任务单元)进行并行计算,该阶段主要消耗的资源是cpu和内存;在Shuffle阶段,Map阶段生成的数据会通过网络传输到集群中的其他节点,这个过程中主要消耗的是网络资源。当前的MapReduce计算框架在调度task时默认高性能节点抢取低性能节点的task,这种盲目的调度方式可能导致拖慢任务的运行时间,降低资源的利用率,比如在Map阶段,当高性能节点从低性能节点拉取task来执行时,会导致集群中的网络负载激增,而由于Shuffle阶段主要消耗的是网络资源,因此网络负载的激增会明显降低Shuffle的执行效率,从而拖慢了整个大数据任务的运行时间。
技术实现思路
本专利技 ...
【技术保护点】
1.一种任务调度方法,其特征在于,所述任务调度方法包括如下步骤:/n当集群中的分布式计算平台MapRduce接收到大数据任务时,启用第一预设模式以允许集群中的高性能节点拉取低性能节点的task运行,其中task为所述大数据任务的最小任务单元;/n当监测到集群中存在完成了Shuffle阶段的task时,获取集群中完成了Map阶段的task数量和完成了Shuffle阶段的task数量;/n检测完成了Map阶段的task数量和完成了Shuffle阶段的task数量之间的相对变化情况,根据所述相对变化情况确定所述大数据任务的关键路径;/n当确定Shuffle阶段为所述大数据任务的关 ...
【技术特征摘要】
1.一种任务调度方法,其特征在于,所述任务调度方法包括如下步骤:
当集群中的分布式计算平台MapRduce接收到大数据任务时,启用第一预设模式以允许集群中的高性能节点拉取低性能节点的task运行,其中task为所述大数据任务的最小任务单元;
当监测到集群中存在完成了Shuffle阶段的task时,获取集群中完成了Map阶段的task数量和完成了Shuffle阶段的task数量;
检测完成了Map阶段的task数量和完成了Shuffle阶段的task数量之间的相对变化情况,根据所述相对变化情况确定所述大数据任务的关键路径;
当确定Shuffle阶段为所述大数据任务的关键路径时,将所述第一预设模式切换为第二预设模式以禁止集群中的高性能节点拉取低性能节点的task运行。
2.如权利要求1所述的任务调度方法,其特征在于,所述检测完成了Map阶段的task数量和完成了Shuffle阶段的task数量之间的相对变化情况,根据所述相对变化情况确定所述大数据任务的关键路径的步骤包括:
计算完成了Map阶段的task数量和完成了Shuffle阶段的task数量的差值;
获取所述差值随时间推移的变化率;
当所述差值随时间推移的变化率为正值时,确定Shuffle阶段为所述大数据任务的关键路径。
3.如权利要求2所述的任务调度方法,其特征在于,所述获取所述差值随时间推移的变化率的步骤之后,还包括:
当所述差值随时间推移的变化率为负值时,确定Map阶段为所述大数据任务的关键路径,并控制MapRduce保持所述第一预设模式运行。
4.如权利要求1所述的任务调度方法,其特征在于,所述检测完成了Map阶段的task数量和完成了Shuffle阶段的task数量之间的相对变化情况,根据所述相对变化情况确定所述大数据任务的关键路径的步骤包括:
在预设时长内,分别计算完成了Map阶段的task数量的增长速率和完成了Shuffle阶段的task数量的增长速率,并将计算结果进行比较;
若完成了Map阶段的task数量的增长速率大于完成了Shuffle阶段的task数量的增长速率,则确定Shuffle阶段为所述大数据任务的关键路径;
若完成了Map阶段的task数量的增长速率小于完成了Shuffle阶段的task数量的增长速率,则确定Map阶段为所述大数据任务的关键路径。
5.如权利要求1至3中任一项所述的任务调度方法,其特征在于,所述任务调度方法还包括:
当所述大数据任务以所述第一预设模式运行时,获取集群中的高性能节点和低性能节点基于预设...
【专利技术属性】
技术研发人员:陈列,周旭,古亮,
申请(专利权)人:深信服科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。