任务调度方法、装置及控制节点制造方法及图纸

技术编号:14056254 阅读:98 留言:0更新日期:2016-11-27 01:37
本申请提供了任务调度方法、装置及控制节点,其中一种方法包括:响应于任务的触发,每隔固定的时间采集段,获取与控制节点相连的各个计算节点的第一计算参数;在第一计算参数获取了第一预设采集次数之后,参考各个计算节点的初始CPU使用率和初始内存使用率分别组成的初始CPU使用率序列和初始内存使用率序列,计算下一个时间采集点;针对各个计算任务的任务进度分别组成的各个进度变化集合,判断各个进度变化集合是否表示对应的计算任务执行缓慢;如果是,则杀死该执行缓慢的计算任务,并为其重新分配计算节点;如果否,重新获取与控制节点相连的各个计算节点的第一计算参数。在本申请实施例中,可以提高任务执行的效率,以及节省计算资源。

【技术实现步骤摘要】

本申请涉及计算机数据处理
,特别涉及任务调度方法、装置及控制节点
技术介绍
分布式计算集群可以分为分布式实时计算集群和分布式离线计算集群,在现有的分布式离线计算集群中,都有两种基本角色,分别为控制节点和计算节点。控制节点可以为各个计算节点分配任务,由计算节点执行各个任务。在实际应用中,计算节点可能由于异常原因而出现意外情况,而为了保障计算节点在单点失效后,集群仍可对外提供服务,控制节点可以将在失效的计算节点上的任务分配到其他计算节点上重新运行。但是专利技术人在研究过程中发现,计算任务已经在失效的计算节点上运行了一段时间,如果分配至新的计算节点重新运行,势必会造成任务的某些阶段被重复在多个计算节点上执行的情况,这样就降低了任务的执行效率,并且浪费了节点的计算资源。
技术实现思路
本申请所要解决的技术问题是提供一种任务调度方法,用以尽量避免现有技术中任务已经被执行一段时间之后仍然需要在重新分配的计算节点中重新运行的情况,以解决计算任务在重复执行时导致的计算资源浪费的问题。本申请还提供了任务调度装置及控制节点,用以保证上述方法在实际中的实现及应用。为了解决上述问题,本申请公开了一种任本文档来自技高网...
任务调度方法、装置及控制节点

【技术保护点】
一种任务调度方法,其特征在于,应用于分布式离线计算集群的控制节点中;该方法包括:响应于任务的触发,每隔固定的时间采集段,获取与所述控制节点相连的各个计算节点的第一计算参数,所述第一计算参数包括:初始CPU使用率、初始内存使用率和各个计算任务的任务进度;在所述第一计算参数获取了第一预设采集次数之后,参考所述各个计算节点的初始CPU使用率和初始内存使用率分别组成的初始CPU使用率序列和初始内存使用率序列,计算下一个时间采集点;针对所述各个计算任务的任务进度分别组成的各个进度变化集合,判断所述各个进度变化集合是否表示对应的计算任务执行缓慢;如果是,则为执行缓慢的计算任务重新分配计算节点;如果否,则在...

【技术特征摘要】
1.一种任务调度方法,其特征在于,应用于分布式离线计算集群的控制节点中;该方法包括:响应于任务的触发,每隔固定的时间采集段,获取与所述控制节点相连的各个计算节点的第一计算参数,所述第一计算参数包括:初始CPU使用率、初始内存使用率和各个计算任务的任务进度;在所述第一计算参数获取了第一预设采集次数之后,参考所述各个计算节点的初始CPU使用率和初始内存使用率分别组成的初始CPU使用率序列和初始内存使用率序列,计算下一个时间采集点;针对所述各个计算任务的任务进度分别组成的各个进度变化集合,判断所述各个进度变化集合是否表示对应的计算任务执行缓慢;如果是,则为执行缓慢的计算任务重新分配计算节点;如果否,则在计算的所述下一个时间采集点到来时,执行所述获取与所述控制节点相连的各个计算节点的第一计算参数的步骤,直至所述各个计算任务执行完毕。2.根据权利要求1所述的方法,其特征在于,所述参考所述各个计算节点的初始CPU使用率和初始内存使用率分别组成的初始CPU使用率序列和初始内存使用率序列,计算下一个时间采集点,包括:根据所述初始CPU使用率序列和初始内存使用率序列,计算下一个时间采集点的目标CPU使用率和目标内存使用率;依据所述目标CPU使用率和目标内存使用率计算下一次采集间隔;依据所述下一次采集间隔和当前时间计算得到下一个时间采集点。3.根据权利要求1所述的方法,其特征在于,所述判断所述各个进度变化集合是否表示对应的计算任务执行缓慢,包括:判断所述各个进度变化集合中计算任务的变化趋势值是否小于预设的任务缓慢阈值。4.根据权利要求1所述的方法,其特征在于,所述为执行缓慢的计算任务重新分配计算节点,包括:在所述执行缓慢的计算任务归属的计算节点上杀死所述执行缓慢的
\t计算任务;将所述执行缓慢的计算任务依次加入预先设置的重试队列;从所述重试队列中按照时间顺序获取执行缓慢的计算任务,并为获取到的计算任务依次分配其他计算节点。5.根据权利要求1所述的方法,其特征在于,所述第一计算参数还包括:各个计算任务的中间结果的元数据;还包括:将所述各个计算任务的中间结果的元数据存储至程序协调集群中;则在所述为执行缓慢的计算任务重新分配计算节点之后,还包括:从所述程序协调集群中获取执行缓慢的计算任务的中间结果元数据,并将所述中间结果的元数据发送至重新分配的计算节点,以触发所述重新分配的计算节点依据所述中间结果的元数据继续执行所述计算任务。6.一种任务调度方法,其特征在于,应用于分布式离线计算集群的控制节点中;该方法包括:响应于任务的触发,每隔固定的时间采集段,获取与所述控制节点相连的各个计算节点的第二计算参数,所述第二计算参数包括:初始CPU使用率、初始内存使用率和各个计算任务的健康状态;在所述第二计算参数获取了第一预设采集次数之后,参考所述各个计算节点的初始CPU使用率和初始内存使用率分别组成的初始CPU使用率序列和初始内存使用率序列,计算下一个时间采集点;判断所述各个计算任务的健康状态是否表示对应的计算任务执行失败,如果是,则为所述执行失败的计算任务重新分配计算节点;如果否,则在计算的下一个时间采集点到来时,执行所述获取与所述控制节点相连的各个计算节点的第二计算参数的步骤,直至所述各个计算任务执行完毕。7.根据权利要求6所述的方法,其特征在于,所述为执行失败的计算任务重新分配计算节点之前,还包括:按照所述固定的时间采集段,继续获取所述执行失败的计算任务的第二计算参数;在所述第二计算参数继续获取了第二预设采集次数之后,根据各个计算任务的健康状态判断所述执行失败的计算任务是否确实失败;如果否,则执行参考所述各个计算节点的初始CPU使用率和初始内存使用率分别组成的初始CPU使用率序列和初始内存使用率序列,计算下一个时间采集点的步骤;如果是,则执行为所述执行失败的计算任务重新分配计算节点的步骤。8.一种任务调度装置,其特征在于,包括:第一获取模...

【专利技术属性】
技术研发人员:王义波
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1