基于预测最早完成时间的分布式任务调度系统及方法技术方案

技术编号:35748930 阅读:40 留言:0更新日期:2022-11-26 18:54
本发明专利技术涉及计算机技术领域,具体涉及一种基于预测最早完成时间的分布式任务调度系统及方法,所述系统包括:任务存储模块:用于存储待调度的新任务;任务调度模块:用于获取训练好的任务完成时间预测模型,并根据任务完成时间预测模型,来预测执行当前待调度的新任务所需的完成时间最早的任务处理节点,并将所述新任务分配给所述任务处理节点;并发任务优化模块:用于优化任务处理节点集合中各个任务处理节点的最佳并发任务数,并获取最小的运行数据,再根据最小的运行数据定期更新任务完成时间预测模型。本发明专利技术能够为新任务选择出完成时间最早的执行器,并实时动态优化选择,从而提高服务器硬件利用效率和任务处理效率。高服务器硬件利用效率和任务处理效率。高服务器硬件利用效率和任务处理效率。

【技术实现步骤摘要】
基于预测最早完成时间的分布式任务调度系统及方法


[0001]本专利技术涉及计算机
,具体涉及一种基于预测最早完成时间的分布式任务调度系统及方法。

技术介绍

[0002]在信息技术、数据挖掘领域,均需要用到任务调度技术。当服务器中存在大量待执行的数据处理任务时,为提高执行效率和资源利用率,往往会部署多个任务处理节点,以分布式的方式处理任务。在瞬时任务量特别大的情况下,为提高任务处理节点的稳定性,保障所有任务都能执行,虽然任务处理节点能够并行处理多个任务,但是并行处理的量是有限的,因此每个任务处理节点的任务还需要进行排队处理。
[0003]例如:当前有10000个数据处理任务需要执行,而可用的任务处理节点有10个,如果平均分配(实际情况中会根据多种因素进行评估,结果不一定是平均分配),那么每个任务处理节点将会收到1000个任务,但由于各个任务处理节点的硬件水平有限和各个任务的处理条件需求不同,因此对分配到的任务的处理效率有高有低。简单举例,任务处理节点A,对于任务a的处理效率为10,对于任务b的处理效率为7;任务处理节点B对于任务a的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于预测最早完成时间的分布式任务调度系统,其特征在于,包括:任务存储模块:用于存储待调度的新任务;任务调度模块:用于获取训练好的任务完成时间预测模型,并根据任务完成时间预测模型,来预测各个任务处理节点执行当前待调度的新任务所需的完成时间,再通过对比分析找到完成时间最早的任务处理节点,并将所述新任务分配给所述任务处理节点;并发任务优化模块:用于优化任务处理节点集合中各个任务处理节点的最佳并发任务数,并获取最小的运行数据,再将最小的运行数据作为样本数据定期更新任务完成时间预测模型;所述最小的运行数据为完成时间最早的新任务,在任务完成时间预测模型中所涉及的相关参数信息。2.根据权利要求1所述的基于预测最早完成时间的分布式任务调度系统,其特征在于:所述任务完成时间预测模型的生成和训练包括以下模块:预测模型生成模块:用于获取影响新任务执行时间的相关参数信息,所述相关参数信息包括硬件参数信息、软件参数信息和数据参数信息,将硬件参数信息、软件参数信息和数据参数信息作为神经网络模型的输入层,所述神经网络模型为线性神经网络模型;预测模型训练模块:用于随机使用若干不同任务在多个硬件水平不同的任务处理节点上执行n次,记录整个过程形成样本数据;还用于将样本数据导入到线性神经网络模型进行训练,得到能够预测最早完成时间的任务完成时间预测模型。3.根据权利要求2所述的基于预测最早完成时间的分布式任务调度系统,其特征在于:所述硬件参数信息包括硬件动态参数和硬件静态参数;所述软件参数信息包括软件动态参数和软件静态参数;所述数据参数信息包括数据动态参数和数据静态参数;所述硬件静态参数包括CPU核心数h1、CPU频率h2、CPU架构h3、内存容量h4、内存频率h5、内存通道数h6、硬盘最大读速度h7、硬盘最大写速度h8、网络上行带宽h9、网络下行带宽h
10
;所述硬件动态参数包括CPU使用率h
11
、内存当前使用量h
12
、硬盘当前读速度h
13
、硬盘当前写速度h
14
、网络当前上行带宽h
15
、网络当前下行带宽h
16
;所述软件静态参数是指在该新任务的程序逻辑下,在单位时间内处理单位数量的数据需要消耗的设备资源,包括单位CPU需求s1、单位内存需求s2、单位硬盘读需求s3、单位硬盘写需求s4、单位网络上行需求s5、单位网络上行需求s6;所述软件动态参数是指在该新任务拟指定的任务槽中,当前排队的任务需要的总的设备资源的需求,包括前方任务总CPU需求s7、前方任务总内存需求s8、前方任务总硬盘读需求s9、前方任务总硬盘写需求s
10
、前方任务总网络上行需求s
11
、前方任务总网络下行需求s
12
;所述数据静态参数包括数据字段数d1,用于评估所需处理的数据的结构化程度;所述数据动态参数包括数据记录数d2,指数据的条数,用于评估所需处理的结构化数据量大小。4.根据权利要求3所述的基于预测最早完成时间的分布式任务调度系统,其特征在于:所述并发任务优化模块包括以下子步骤:自身剩余资源计算子模块:用于不断计算当前任务处理节点的自身剩余资源,所述自身剩余资源包括节点CPU剩余资源C
r
、节点内存剩余资源M
r
、节点硬盘剩余读速度D
rr
、节点硬盘剩余写速度D
rw
、节点网络剩余上行速度N
ru
、节点网络剩余下行速度N
rd
;节点CPU剩余资源C
r
=(1

h
11
)
×
(h1×
h2)节点内存剩余资源M
r
=h4‑
h
12
节点硬盘剩余读速度D
rr
=(h7‑
h
13
)
×
(t

t
r
)节点硬盘剩余写速度D
rw
=(h8‑
h
14
)
×
(t

t
r
)节点网络剩余上行速度N
ru
=(h9‑
h
15
)
×
(t

t
r
)节点网络剩余下行速度N
rd
=(h
10

h
16
)
×
(t

t
r
)其中,t为任务完成时间预测模型预测得到的最早完成时间,t
r
为任务的等待时间,t

t
r
为预测任务执行过程实际消耗时间;下一任务分析计算子模块:用于分析计算下一个任务的资源需求,所述资源需求包括任务CPU资源需求T
c
、任务内存资源需求T
m
、任务硬盘资源读需求T
dr
、任务硬盘资源写需求T
dw
、任务网络资源上行需求T
nu
、任务网络资源下行需求T
nd
;任务CPU资源需求T
c
=s1×
d2任务内存资源需求T
m
=s2×
d3任务硬盘资源读需求T
dr
=s3×
d3×
(t

t
r
)任务硬盘资源写需求T
dw
=s4×
d3×
(t

t
r
)任务网络资源上行需求T
nu
=s5×
d3×
(t

t
r
)任务网络资源下行需求T
nd
=s6×
d3×
(t

t
r
)并发任务数分析子模块:用于根据资源分数计算公式计算下一个新任务的得分,当下一个新任务的得分Score≤1时,将所述新任务调度到该节点并发执行;得分Score为大于0的实数。5.基于预...

【专利技术属性】
技术研发人员:何晓晔郭长国董富强何山朱鸿基
申请(专利权)人:渝州大数据实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1