【技术实现步骤摘要】
数据处理任务的并行度调整方法、装置、设备及介质
[0001]本专利技术涉及大数据处理
,尤其涉及一种数据处理任务的并行度调整方法、装置、设备及介质。
技术介绍
[0002]通常,数据处理是“收集和处理数据项以产生有意义的信息。”从这个意义上讲,它可以被视为信息处理的子集,信息的变化(处理)可以通过任何方式检测到。数据处理任务,在大数据系统中通常指提交数据处理的大数据作业。在大数据处理系统中,作业是一系列并行任务的总集。通常说一个处理作业,会分成若干个处理阶段(例如map阶段和reduce阶段),对于每个阶段,包括若干个相同的处理任务并行地执行。
[0003]以Hadoop为例,简单介绍数据处理任务调度的过程。Hadoop早期的主要目的是运行大型批处理作业,例如Web索引和日志挖掘。用户将作业提交到队列,然后集群按顺序运行它们。当作业提交到Hadoop的管理节点的时候,会被分割为若干个阶段(例如map阶段和reduce阶段),各个阶段又分为若干个任务。任务的调度根据优先级和集群中各个处理节点可用的资源进行,包括先 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理任务的并行度调整方法,其特征在于,包括:确定数据处理系统的当前执行作业以及所述当前执行作业对应的下游作业的预计处理时间;基于所述预计处理时间判断所述数据处理系统针对所述下游作业的执行时间是否超时;若是,则基于所述数据处理系统的当前吞吐量、所述当前执行作业的预计处理时间、所述下游作业的预计处理时间以及作业依赖关系,调整所述下游作业对应的执行并行度。2.根据权利要求1所述的方法,其特征在于,所述确定数据处理系统的当前执行作业以及所述当前执行作业对应的下游作业的预计处理时间,包括:获取数据处理系统的历史作业统计信息;基于所述历史作业统计信息确定所述数据处理系统的当前执行作业以及所述当前执行作业对应的下游作业的预计处理时间。3.根据权利要求2所述的方法,其特征在于,所述基于所述历史作业统计信息确定所述数据处理系统的当前执行作业以及所述当前执行作业对应的下游作业的预计处理时间,包括:基于所述历史作业统计信息确定历史作业对应的历史任务的吞吐量;基于所述历史任务的吞吐量,确定所述当前执行作业以及所述当前执行作业对应的下游作业的吞吐量;根据所述当前执行作业以及所述下游作业的吞吐量,确定所述当前执行作业以及所述下游作业的预计处理时间。4.根据权利要求1所述的方法,其特征在于,所述基于所述预计处理时间判断所述数据处理系统针对所述当前执行作业对应的下游作业的执行时间是否超时,包括:获取所述的当前执行作业的预设处理时间;若所述当前执行作业的预计处理时间与所述预设处理时间的差值大于预设阈值,且所述预计处理时间大于所述预设处理时间,则确定所述数据处理系统针对所述当前执行作业对应的下游作业的执行时间超时。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述预计处理时间判断所述数据处理系统针对所述下游作业的执行时间是否提前;若是,则基于所述当前吞吐量、...
【专利技术属性】
技术研发人员:谷兰芝,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。