数据倾斜检测方法、装置及相关设备制造方法及图纸

技术编号:33018342 阅读:23 留言:0更新日期:2022-04-15 08:50
本申请提供一种数据倾斜检测方法、装置及相关设备,应用于大数据处理系统。该方法包括:大数据处理系统将用户的大数据计算任务拆分为多个子任务,并试运行这多个子任务,然后将多个子任务对应的多个运行时长从大到小进行排序,得到排序列表;再确定排序列表中相邻的第一运行时长与第二运行时长的差值,在差值大于阈值时,确定第一运行时长对应的第一子任务及在排序列表中排列在第一子任务之前的子任务是存在数据倾斜的子任务,其中,所述第一运行时长大于所述第二运行时长。通过上述方法,能够检测出计算任务中存在数据倾斜的子任务并进行提示,以使用户对计算任务进行优化,进而减少计算任务运行的时长。而减少计算任务运行的时长。而减少计算任务运行的时长。

【技术实现步骤摘要】
数据倾斜检测方法、装置及相关设备


[0001]本申请涉及计算机
,尤其涉及一种数据倾斜检测方法、装置及相关设备。

技术介绍

[0002]在大数据领域,每天都会有大量的请求查询以及数据汇总,在这样大规模的数据处理中,分治思想的应用非常广泛,例如Hadoop、Spark等平台。通过应用分治思想可以将一个计算任务分成多个子任务,然后将多个子任务的运行结果进行汇总得到计算任务的结果。在应用分治思想运行计算任务时,计算任务的运行时长由运行最慢的子任务决定。通常,数据倾斜是导致任务运行时间长的主要原因,如果能够确定出现数据倾斜的子任务,通过优化运行慢的子任务,能够有效缩短整个计算任务的运行时长。
[0003]当前的大数据处理系统能够试运行计算任务,并向用户提供计算结果,但是无法确定哪些子任务是存在数据倾斜的子任务,因此,如何确定多个子任务中存在数据倾斜的子任务是一个亟待解决的问题。

技术实现思路

[0004]本申请公开了一种数据倾斜检测方法、装置及相关设备,能够检测出计算任务中存在数据倾斜的子任务并进行提示,以使用户对计算任务本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据倾斜检测方法,其特征在于,应用于大数据处理系统,所述方法包括:将用户的大数据计算任务拆分为多个子任务;试运行所述多个子任务,获取所述多个子任务中每个子任务对应的运行时长;将多个运行时长从大到小进行排序,得到排序列表;获取所述排序列表中相邻的第一运行时长与第二运行时长的差值,在所述差值大于阈值时,确定所述第一运行时长对应的第一子任务及在所述排序列表中排列在所述第一子任务之前的子任务是存在数据倾斜的子任务,其中,所述第一运行时长大于所述第二运行时长。2.根据权利要求1所述的方法,其特征在于,所述第一运行时长是所述排序列表中的任意一个运行时长。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:向所述用户的用户终端发送提示信息,所述提示信息用于通知所述用户所述第一子任务及在所述排序列表中排列在所述第一子任务之前的子任务是存在数据倾斜的子任务。4.根据权利要求1至3任一项所述的方法,其特征在于,所述大数据处理系统在试运行所述多个子任务时,对所述多个子任务进行并行计算。5.根据权利要求3所述的方法,其特征在于,将所述用户的大数据计算任务拆分为多个子任务之前,所述方法还包括:接收所述用户终端上传的大数据计算任务。6.一种数据倾斜检测装置,其特征在于,应用于大数据处理系统,所述装置包括:计算模块,用于将用户的大数据计算任务拆分为多个子任务,并试运行所述多个子任务;获取模块,用于获取所述多个子任务中每...

【专利技术属性】
技术研发人员:陈振强黄俊
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1