数据倾斜检测方法、装置、计算机设备及可读存储介质制造方法及图纸

技术编号:26478634 阅读:32 留言:0更新日期:2020-11-25 19:22
本申请实施例提供了一种数据倾斜检测方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于数据处理技术领域,通过获取查询任务,对所述查询任务进行读取操作,以得到处理所述查询任务所对应的时间维度参数和数据量维度参数,分析所述时间维度参数和所述数据量维度参数,以得到数据倾斜所对应的数据倾斜值,判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值,若所述数据倾斜值大于或者等于所述预设数据倾斜阈值,判定存在数据倾斜,由于对数据查询中的时间维度和数据量维度两个方面对数据倾斜进行统计,与预设的数据倾斜阈值做比较,得出最终的数据倾斜结果,降低了数据倾斜评估的复杂性,提高了对数据倾斜检测的效率和准确度。

【技术实现步骤摘要】
数据倾斜检测方法、装置、计算机设备及可读存储介质
本申请涉及数据处理
,尤其涉及一种数据倾斜检测方法、装置、计算机设备及计算机可读存储介质。
技术介绍
数据倾斜指在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢,因此,首先需要识别是否存在数据倾斜,若存在数据倾斜,研发人员会采取措施解决数据倾斜的问题。例如,在大数据项目中经常会用到Impala做快速查询操作,Impala是一种新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。但是在实际的场景中很难知道Impala是否已经是最优的查询性能,尤其是针对数据倾斜这种情况,主要包括由于以下原因:1).在普通测试中只会测试到Impala接口的查询时间,不会再往里深追。2).数据倾斜发生在比较底层,追根溯源比较难。3).数据倾斜的查找需要一定的计算和比较,不能很直观的发现。4).数据倾斜的计算方式过于僵化,不能很好的适应即时的生产或本文档来自技高网...

【技术保护点】
1.一种数据倾斜检测方法,其特征在于,所述方法包括:/n获取查询任务;/n对所述查询任务进行读取操作,以得到处理所述查询任务所对应的时间维度参数和数据量维度参数;/n分析所述时间维度参数和所述数据量维度参数,以得到数据倾斜所对应的数据倾斜值;/n判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值;/n若所述数据倾斜值大于或者等于所述预设数据倾斜阈值,判定存在数据倾斜。/n

【技术特征摘要】
1.一种数据倾斜检测方法,其特征在于,所述方法包括:
获取查询任务;
对所述查询任务进行读取操作,以得到处理所述查询任务所对应的时间维度参数和数据量维度参数;
分析所述时间维度参数和所述数据量维度参数,以得到数据倾斜所对应的数据倾斜值;
判断所述数据倾斜值是否大于或者等于预设数据倾斜阈值;
若所述数据倾斜值大于或者等于所述预设数据倾斜阈值,判定存在数据倾斜。


2.根据权利要求1所述数据倾斜检测方法,其特征在于,所述查询任务所对应的数据查询基于分布式应用环境,所述分布式应用环境包含多个查询节点;
所述对所述查询任务进行读取操作,以得到处理所述查询任务所对应的时间维度参数和数据量维度参数的步骤包括:
获取查询任务与查询节点所对应的预设匹配关系;
根据所述预设匹配关系,将所述查询任务转化为预设单节点所对应的单节点执行计划;
将所述单节点执行计划按照预设切分方式进行切分,以得到若干个执行子计划;
对所述执行子计划所对应的查询子任务进行读取操作,以得到处理所述执行子计划所对应的时间维度参数和数据量维度参数;
将所有所述执行子计划所对应的时间维度参数和数据量维度参数进行集合,以得到处理所述查询任务所对应的时间维度参数和数据量维度参数。


3.根据权利要求2所述数据倾斜检测方法,其特征在于,所述分析所述时间维度参数和所述数据量维度参数,以得到数据倾斜值的步骤包括:
根据所述查询任务所对应的时间维度参数计算所述查询任务所对应的时间倾斜因子;
根据所述查询任务所对应的数据量维度参数计算所述查询任务所对应的数据量倾斜因子。


4.根据权利要求3所述数据倾斜检测方法,其特征在于,所述根据所述查询任务所对应的时间维度参数计算所述查询任务所对应的时间倾斜因子的步骤包括:
获取所有所述执行子计划各自所对应的运行时间;
计算所述所有运行时间的平均值以得到平均运行时间;
从所述所有运行时间中筛选出最短运行时间及最长运行时间;
统计所有所述执行子计划各自所对应的节点以得到节点总数量;
根据所有所述运行时间、最短运行时间及最长运行时间及所述节点总数量,计算得到最大倾斜时间;
根据所有所述运行时间、所述平均运行时间及所述节点总数量,计算得到平均倾斜时间;
计算所述最大倾斜时间与所述平均倾斜时间的差值以得到时间倾斜因子。


5.根据权利要求3所述数据倾斜检测方法,其特征在于,所述根据所述查询任务所对应的数据量...

【专利技术属性】
技术研发人员:吴名先郑丕伟
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1