当前位置: 首页 > 专利查询>同济大学专利>正文

一种流大数据处理任务的抗干扰调度方法和装置制造方法及图纸

技术编号:33202350 阅读:12 留言:0更新日期:2022-04-24 00:41
本发明专利技术涉及一种流大数据处理任务的抗干扰调度方法和装置,方法包括获取由数据项组成的数据流,按时间窗口分批处理各个数据项,预测后续时间窗口的数据流;根据预测的后续时间窗口的数据流,在各个计算节点中分配任务;以每个计算节点的处理任务时间差距最小、每个计算节点中任务的共享资源需求总量不超过该计算节点一个时间窗口内能提供的共享资源的最大值、每个计算节点的处理任务时间不超过一个时间窗口长度为目标,进行任务分配;获取最终的任务分配结果,对实际到达的数据流进行处理。与现有技术相比,本发明专利技术从更细的粒度对流大数据处理任务进行调度,降低了任务在计算节点上执行过程中的干扰,大大提高了数据中心计算节点的资源利用率。算节点的资源利用率。算节点的资源利用率。

【技术实现步骤摘要】
一种流大数据处理任务的抗干扰调度方法和装置


[0001]本专利技术涉及流数据处理
,尤其是涉及一种流大数据处理任务的抗干扰调度方法和装置。

技术介绍

[0002]随着物联网、传感网的普及,应用领域出现来大量的流数据。流大数据在数据中心上的调度和处理是一项极其关键的技术,其主要工作是将快速到达的数据项,合理分配到数据中心的各个计算节点上进行处理,从而提高流大数据处理的实时性。现有的方法分为静态调度方法和在线调度方法。静态调度方法在数据流处理任务部署的初始阶段,根据以往的历史经验进行分配和调度。在线调度方法可细分为基于启发式规则的调度方法、基于数据到达统计规律的调度方法、基于机器学习类调度方法等。基于启发式规则的调度方法一般根据具体应用中的某一方面性质,设计相应的启发式调度算法,例如可根据数据的相似性、任务间依赖性、任务消耗资源量、任务紧急程度等设计相应规则。基于流数据到达统计规律的调度方法通过统计数据流的在线分布情况,设计调度算法。基于机器学习的调度方法通过学习训练,调整逐步到达最优调度。可见,流大数据调度方法的研究是一个研究热点和难点,流大数据分配和调度方法的好坏直接影响流大数据处理的实时性和吞吐率。
[0003]静态调度方法对均匀到达的流大数据任务处理的效果较好,但对非均匀到达的流大数据,由于到达速率波动或者计算资源环境变化,原有调度方案将失效。基于启发式规则的调度方法往往只是根据某一方面或某几方面特征进行调度,适应范围较窄,且调度效果难以达到最优。基于数据项到达统计规律的调度方法难以应对无固定规律的情况。基于机器学习类调度方法,调度决策模型训练时间长,调度方案往往滞后于数据流变化规律。
[0004]纵观现有的方法,除上述缺点之外,还具有调度粒度过粗的问题,它们大多只关注如何将流大数据处理任务调度到计算节点上,很少从考虑流数据任务在计算节点多内核上的分配如何影响全局调度的效果。然而,当前数据中心的计算节点往往由多核处理器组成。大量的流数据处理任务在计算节点的多个内核上并行执行时,会因共享资源的限制而产生竞争和干扰,这种竞争和干扰将导致任务相互等待,会严重降低计算效率。因此,急需一种降低流大数据处理任务在多个内核间相互干扰的调度方法。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种降低流大数据处理任务在多个内核间相互干扰的流大数据处理任务的抗干扰调度方法和装置。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]一种流大数据处理任务的抗干扰调度方法,包括以下步骤:
[0008]获取由数据项组成的数据流,按时间窗口分批处理各个数据项;不断预测后续时间窗口的数据流;
[0009]根据预测的后续时间窗口的数据流,在各个计算节点中分配任务,任务分配过程
中,计算各计算节点需要的处理任务时间,获取共享资源需求;以每个计算节点的处理任务时间差距最小、每个计算节点中任务的共享资源需求总量不超过该计算节点一个时间窗口内能提供的共享资源的最大值、每个计算节点的处理任务时间不超过一个时间窗口长度为目标,进行任务分配;获取各个计算节点最终的任务分配结果,对后续时间窗口实际到达的数据流进行处理。
[0010]进一步地,所述任务分配的处理表达式为:
[0011][0012]式中,为在w
t
时间窗口内p
i
节点总的处理任务时间,为处理任务时间的中位数,m为计算节点的总数,为计算节点i处理任务j的调度方案,i=1,2,

,m,j=1,2,

,n,n为任务的总数,R(A
j
,p
i
)为计算节点p
i
中任务类型A
j
消耗的共享资源,W
i
为时间窗口i所有的共享资源,T0为一个时间窗口长度。
[0013]进一步地,利用差分整合移动平均自回归方法,采用最近的达到预设的第一时间长度的时间窗口数据总量为训练数据,不断预测后续时间窗口的数据流。
[0014]进一步地,所述任务分配过程中根据历史信息,获取处理任务和计算节点性能之间的函数关系,从而计算不同调度方案下每个计算节点的完成时间。
[0015]进一步地,采用回归分析方法获取处理任务和计算节点性能之间的函数关系。
[0016]进一步地,所述计算节点包括多个内核,所述数据流对应的任务需要消耗内核资源和共享资源,所述任务分配过程中还包括获取任务需要消耗的共享资源信息,在各个计算节点中为每个内核分配在同一时刻不会发生共享资源使用冲突的任务。
[0017]进一步地,所述任务分配过程中还包括在各个计算节点中为每个内核分配不同类型的任务。
[0018]进一步地,所述任务分配过程中还包括为计算节点中各个内核分配的任务充分利用该计算节点的共享资源。
[0019]本专利技术还提供一种流大数据处理任务的抗干扰调度装置,包括:
[0020]数据流预测模块,被配置为,获取由数据项组成的数据流,按时间窗口分批处理各个数据项;不断预测后续时间窗口的数据流;
[0021]干扰预测模块,被配置为,根据计算节点的任务分配结果,计算各计算节点需要的处理任务时间;
[0022]调度器,被配置为,根据预测的后续时间窗口的数据流,在各个计算节点中分配任务,任务分配过程中,以每个计算节点的处理任务时间差距最小、每个计算节点中任务的共享资源需求总量不超过该计算节点一个时间窗口内能提供的共享资源的最大值、每个计算节点的处理任务时间不超过一个时间窗口长度为目标,进行任务分配;获取各个计算节点最终的任务分配结果,对后续时间窗口实际到达的数据流进行处理;
[0023]性能检测模块,被配置为,监测各计算节点的处理性能;
[0024]检测历史数据收集模块,被配置为,获取各计算节点的处理任务和处理性能;
[0025]干扰模型生成模块,被配置为,根据检测历史数据收集模块采集的数据构建训练数据,用于干扰预测模块中的模型训练。
[0026]进一步地,所述调度器进行任务分配的处理表达式为:
[0027][0028]式中,为在w
t
时间窗口内p
i
节点总的处理任务时间,为处理任务时间的中位数,m为计算节点的总数,为计算节点i处理任务j的调度方案,i=1,2,

,m,j=1,2,

,n,n为任务的总数,R(A
j
,p
i
)为计算节点p
i
中任务类型A
j
消耗的共享资源,W
i
为时间窗口i所有的共享资源,T0为一个时间窗口长度;
[0029]所述干扰预测模块根据训练数据,获取处理任务和计算节点性能之间的函数关系,从而计算不同调度方案下每个计算节点的完成时间;
[0030]所述计算节点包括多个内核,所述数据流对应的任务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流大数据处理任务的抗干扰调度方法,其特征在于,包括以下步骤:获取由数据项组成的数据流,按时间窗口分批处理各个数据项;不断预测后续时间窗口的数据流;根据预测的后续时间窗口的数据流,在各个计算节点中分配任务,任务分配过程中,计算各计算节点需要的处理任务时间,获取共享资源需求;以每个计算节点的处理任务时间差距最小、每个计算节点中任务的共享资源需求总量不超过该计算节点一个时间窗口内能提供的共享资源的最大值、每个计算节点的处理任务时间不超过一个时间窗口长度为目标,进行任务分配;获取各个计算节点最终的任务分配结果,对后续时间窗口实际到达的数据流进行处理。2.根据权利要求1所述的一种流大数据处理任务的抗干扰调度方法,其特征在于,所述任务分配的处理表达式为:式中,为在w
t
时间窗口内p
i
节点总的处理任务时间,为处理任务时间的中位数,m为计算节点的总数,为计算节点i处理任务j的调度方案,i=1,2,

,m,j=1,2,

,n,n为任务的总数,R(A
j
,p
i
)为计算节点p
i
中任务类型A
j
消耗的共享资源,W
i
为时间窗口i所有的共享资源,T0为一个时间窗口长度。3.根据权利要求1所述的一种流大数据处理任务的抗干扰调度方法,其特征在于,利用差分整合移动平均自回归方法,采用最近的达到预设的第一时间长度的时间窗口数据总量为训练数据,不断预测后续时间窗口的数据流。4.根据权利要求1所述的一种流大数据处理任务的抗干扰调度方法,其特征在于,所述任务分配过程中根据历史信息,获取处理任务和计算节点性能之间的函数关系,从而计算不同调度方案下每个计算节点的完成时间。5.根据权利要求4所述的一种流大数据处理任务的抗干扰调度方法,其特征在于,采用回归分析方法获取处理任务和计算节点性能之间的函数关系。6.根据权利要求1所述的一种流大数据处理任务的抗干扰调度方法,其特征在于,所述计算节点包括多个内核,所述数据流对应的任务需要消耗内核资源和共享资源,所述任务分配过程中还包括获取任务需要消耗的共享资源信息,在各个计算节点中为每个内核分配在同一时刻不会发生共享资源使用冲突的任务。7.根据权利要求6所述的一种流大数据处理任务的抗干扰调度方法,其特征在于,所述任务分配过程中还包括在各个计算节点中为每个内核分配不同类型的任务。8.根据权...

【专利技术属性】
技术研发人员:曾国荪王顺丁春玲
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1