数据倾斜的预测方法及装置制造方法及图纸

技术编号:26790501 阅读:24 留言:0更新日期:2020-12-22 17:05
本发明专利技术提供了一种数据倾斜的预测方法及装置,该方法包括:响应于数据倾斜预测指令,确定所述数据倾斜预测指令对应的待执行任务;获取节点集群当前的运行状态信息以及源系统的数据量信息;所述源系统待用于提供所述待执行任务对应的任务数据,所述节点集群待用于处理所述待执行任务对应的任务数据;基于待执行任务的任务算子、运行状态信息和数据量信息生成待执行任务对应的预测参数;将预测参数输入至预先设置的数据倾斜预测模型中,得到待执行任务对应的数据倾斜预测结果。应用本发明专利技术提供的方法,能够在待执行任务执行之前,得到该待执行任务对应的数据倾斜预测结果,能够避免在执行任务过程中发生数据倾斜,从而避免影响到使用集群的其他业务。

【技术实现步骤摘要】
数据倾斜的预测方法及装置
本专利技术涉及计算机应用
,特别涉及一种数据倾斜的预测方法及装置。
技术介绍
随着计算机技术的发展,在面临日益增长的海量数据的情况下,大数据处理技术也得到了普及,然而,在处理大量数据的过程中也出现了很多问题,其中,数据倾斜是大数据计算的过程中最为常见的问题。数据倾斜指的是集群在执行大数据任务过程中,由于缓存数据分散度不够,从而导致大量的数据集中到集群中的一个或几个数据节点上;这样会使得这些数据节点的处理速度低于平均的处理速度,拖慢整个任务执行过程。若倾斜数据超过数据节点本身设置的内存上限,则会使数据节点宕掉。现有技术中,通常是在执行大数据任务的过程中检测到被执行的任务运行时间过长或者发生内存不足(OutOfMemory,OOM)异常时,才能发现集群中有数据倾斜发生,在数据倾斜发生后,需要花费大量的时间去解决数据倾斜问题,使得当前正在使用集群的其他业务受到影响。
技术实现思路
本专利技术所要解决的技术问题是提供一种数据倾斜的预测方法,能够在待执行任务执行之前,得到该待执行本文档来自技高网...

【技术保护点】
1.一种数据倾斜的预测方法,其特征在于,包括:/n响应于数据倾斜预测指令,确定所述数据倾斜预测指令对应的待执行任务;/n获取节点集群当前的运行状态信息以及源系统的数据量信息;所述源系统待用于提供所述待执行任务对应的任务数据,所述节点集群待用于处理所述待执行任务对应的任务数据;/n基于所述待执行任务的任务算子、所述运行状态信息和所述数据量信息生成所述待执行任务对应的预测参数;/n将所述预测参数输入至预先设置的数据倾斜预测模型中,得到所述待执行任务对应的数据倾斜预测结果。/n

【技术特征摘要】
1.一种数据倾斜的预测方法,其特征在于,包括:
响应于数据倾斜预测指令,确定所述数据倾斜预测指令对应的待执行任务;
获取节点集群当前的运行状态信息以及源系统的数据量信息;所述源系统待用于提供所述待执行任务对应的任务数据,所述节点集群待用于处理所述待执行任务对应的任务数据;
基于所述待执行任务的任务算子、所述运行状态信息和所述数据量信息生成所述待执行任务对应的预测参数;
将所述预测参数输入至预先设置的数据倾斜预测模型中,得到所述待执行任务对应的数据倾斜预测结果。


2.根据权利要求1所述的方法,其特征在于,所述获取节点集群当前的运行状态信息,包括:
确定所述待执行任务对应的节点集群;
获取所述节点集群中的每个数据节点的负载信息、所述节点集群中当前处于数据映射MAP阶段的数据量以及所述节点集群的带宽状态;
由所述节点集群中的每个数据节点的负载信息、所述节点集群中当前处于数据映射MAP阶段的数据量以及所述节点集群的带宽状态组成所述节点集群当前的运行状态信息。


3.根据权利要求1所述的方法,其特征在于,所述数据倾斜预测模型的设置过程,包括:
获取预先生成的初始预测模型以及预先存储的训练数据集;所述训练数据集中包含多个训练参数;
依次应用所述训练数集中的每个训练参数训练所述初始预测模型,直到所述初始预测模型满足预先设置的停止训练条件;
将满足该停止训练条件的初始预测模型作为数据倾斜预测模型。


4.根据权利要求1所述的方法,其特征在于,还包括:
若该数据倾斜预测结果表征为发生数据倾斜,则基于所述数据倾斜预测结果生成告警信息,以进行告警,并基于所述数据倾斜预测结果调整所述任务算子。


5.根据权利要求1所述的方法,其特征在于,所述确定所述数据倾斜预测指令对应的待执行任务,包括:
获取所述数据倾斜预测指令包含的任务标识;
基于所述任务标识在预先设置的任务集合中确定所述数据倾斜预测指令对应的待执行任务。


6.一种数据倾斜的预测装置,其特征在于,包括:
确定单元...

【专利技术属性】
技术研发人员:严琳徐雅光韩路刘利刚俞浩陈世强
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1