解决大数据计算过程中数据倾斜的方法技术

技术编号：14355287 阅读：288 留言：0更新日期：2017-01-08 22:34

本发明专利技术提出了一种解决大数据计算过程中数据倾斜的方法，包括以下步骤：分析每天数据的主键的量级，设定一个阈值D，得到每个主键下的数据的分组数量N；根据每个主键的阈值D和分组数量N，得到主键分组生成码表；当进行数据分析或处理时，查询之前生成好的主键分组生成码表，给每个数据的主键加上一个1到分组数量N之间的随机数作为新主键，最终完成第一次分组；最终完成数据处理；根据原始的主键进行第二次分组，并统计最终分组结果。本发明专利技术无需增加硬件成本，对shuffle操作导致的数据倾斜有着明显的作用，通常可以解决数据倾斜问题，或者至少是大幅度缓解数据倾斜，将Spark作业的性能提高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据
，特别涉及一种解决大数据计算过程中数据倾斜的方法。
技术介绍
大数据倾斜产生的原因：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据，然后1秒钟就运行完了；但是个别task可能分配到了100万数据，要运行一两个小时。因此，整个Spark作业的运行进度是由运行时间最长的那个task决定的。目前，大多数的大数据产品在解决数据倾斜的问题上，都采用增加物理资源(CPU，内存)、手动调整shuffle并行度参数、过滤掉少数导致数据倾斜的KEY、以及通过分区(Partitioning)等手段解决数据倾斜问题。增加物理资源(CPU，内存)会增加投入成本，而且当数据量足够大时，还是会导致内存溢出。调整shuffle并行参数及分区治标不治本，数据达到一定量级时还是会产生数据倾斜。过滤掉少数导致数据倾斜的KEY，这种方法应用的场景比较少，毕竟大多数情况下，导致数据倾斜的KEY还是很多的，大量过滤对数据准确性有影响。
技术实现思路
本专利技术的目的旨在至少解决所述技术缺陷之一。为此，本专利技术的目的在于提出一种解决大数据计算过程中数据倾斜的方法，解决某些task分配的数据量特别大，产生数据倾斜，效率过低等问题。为了实现上述目的，本专利技术提供一种解决大数据计算过程中数据倾斜的方法，包括以下步骤...

【技术保护点】
一种解决大数据计算过程中数据倾斜的方法，其特征在于，包括以下步骤：步骤S1，分析每天数据的主键的量级，设定一个阈值D，得到每个主键下的数据的分组数量N；步骤S2，根据每个主键的阈值D和分组数量N，得到主键分组生成码表，每次进行数据分析或处理时查询此表，根据相应的分组数量N对数据进行分组；步骤S3，当进行数据分析或处理时，查询之前生成好的主键分组生成码表，给每个数据的主键加上一个1到分组数量N之间的随机数作为新主键，将新主键相同的数据分为一组，分为N组，最终完成第一次分组；步骤S4，对第一次分组后的数据，采用不同task任务处理新主键不同的数据，同一task任务处理新主键相同的数据，最终完成数据处理；步骤S5，对上述处理后的数据，去除新主键后面所加的随机数，得到数据原始的主键，根据原始的主键进行第二次分组，并统计最终分组结果。

【技术特征摘要】
1.一种解决大数据计算过程中数据倾斜的方法，其特征在于，包括以下步骤：步骤S1，分析每天数据的主键的量级，设定一个阈值D，得到每个主键下的数据的分组数量N；步骤S2，根据每个主键的阈值D和分组数量N，得到主键分组生成码表，每次进行数据分析或处理时查询此表，根据相应的分组数量N对数据进行分组；步骤S3，当进行数据分析或处理时，查询之前生成好的主键分组生成码表，给每个数据的主键加上一个1到分组数量N之间的随机数作为新主键，将新主键相同的数据分为一组，分为N组，最终完成第一次分组；步骤S4，对第一次分组后的数据，采用不同task任务处理新主键不同的数据，同一task任务处理新主键相同的数据，最终完成数据处理；步骤S5，对上述处理后的数据，去除新主键后面所加的随机数，得到数据原始的主键，根据原始的主键进行第二次分组，并统计最终分组结果。2.如权利要求1所述的解决大数据计算过程中数据倾斜的方法，其特征在于：所述阈值D为经验值。3.如权利要求1所述的解决...

【专利技术属性】
技术研发人员：崔隆，
申请(专利权)人：飞思达技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人