一种基于数据倾斜模型的动态分区方法及系统技术方案

技术编号：41133268 阅读：5 留言：0更新日期：2024-04-30 18:03

本发明专利技术公开了一种基于数据倾斜模型的动态分区方法及系统，涉及大数据技术领域，包括收集数据并对数据做预处理，建立数据倾斜评估模型对预处理的数据进行预测，根据数据特征预测作业处理过程中的数据倾斜程度，确定分区优化策略，设计评估实验对动态分区与静态分区作比较，并对动态分区进行重复优化。本发明专利技术提出基于数据倾斜模型的动态分区算法，该算法可以根据所处理数据的倾斜程度，选择适合的分区策略，使用基于Spark动态分区的三种优化方法的算法，来处理数据性能的对比实验，设计并且验证上述动态分区方案的普适性和高效性，能够使得整个计算集群的负载均衡，充分利用集群的计算资源，更高效地完成数据的处理和计算。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据领域，特别是一种基于数据倾斜模型的动态分区方法及系统。

技术介绍

1、当前在spark平台上运行大规模数据处理作业，这些作业涉及到复杂的数据分布和处理需求。随着数据量的增加，数据倾斜成为一个显著的问题，即某些数据分区包含的数据量远远超过其他分区，导致作业执行时间不均匀，性能下降，资源利用不平衡。传统的静态分区策略无法有效处理这种实时性、动态性的数据倾斜问题，因此需要一种动态适应性更强的解决方案。

2、现有基于数据倾斜模型的动态分区算法在spark平台上存在一系列缺陷。首先，一些算法仍然采用静态分区策略，无法在作业执行期间动态调整，从而限制了系统对实时数据倾斜的适应能力。其次，数据倾斜模型的准确性可能不足，难以全面捕捉复杂的数据倾斜模式，导致动态分区策略的不准确性，进而影响系统性能。此外，一些算法引入了较大的计算开销，特别是在实时性能调整的情况下，可能导致作业执行时间的增加，降低了算法的实际效用。可扩展性也是一个问题，一些算法在大规模数据上可能表现不佳，因为它们可能需要进行全局数据分析，导致性能下降。不合理的资源利用是另一个方面的挑战，一些算法可能导致资源利用不均衡，进而造成资源的浪费和性能不佳。

3、此外，这些算法在泛化能力上存在不足，难以适应各种实际应用中可能出现的数据倾斜情况，限制了它们在多样性场景下的适应性。最后，一些算法缺乏实时性能调整机制，难以在实时产生的数据倾斜情况下做到即时响应，降低了系统的动态性和实时性。这些缺陷共同影响了现有技术在spark平台上处理数据倾斜的效果，需

技术实现思路

1、鉴于现有的基于数据倾斜模型的动态分区及系统中存在的问题，提出了本专利技术。

2、因此，本专利技术所要解决的问题在于如何实时监测数据分布并根据实际情况动态调整分区策略，以保持作业的均衡执行。

3、为解决上述技术问题，本专利技术提供如下技术方案：

4、第一方面，本专利技术实施例提供了一种基于数据倾斜模型的动态分区方法，其包括，收集数据并对数据做预处理。建立数据倾斜评估模型对预处理的数据进行预测，根据数据特征预测作业处理过程中的数据倾斜程度，确定分区优化策略。设计评估实验对动态分区与静态分区做比较，并对动态分区进行重复优化。

5、作为本专利技术所述基于数据倾斜模型的动态分区方法的一种优选方案，其中：所述数据倾斜评估模型是基于进化算法的模型，包括：建立包含多个基因的染色体，每个染色体作为一个个体，每个基因对应一次分区操作，染色体包括三个部分，每个部分分别表示随机数分区、随机数策略进行二次分配哈希分区和相邻位置的哈希分区，表示为，

6、chromosome＝(gene1，gene2，gene3)

7、其中，gene1表示随机数分区，gene2表示随机数策略进行二次分配哈希分区，gene3表示相邻位置的哈希分区。设计一个适应度函数，考虑任务执行时间、资源利用率和负载均衡，以及不同分区策略的组合，同时结合了数据的尾部形状和异态性，公式表示为：

8、

9、其中，xi是数据集中的第i个观察值，是数据集的平均值，n是数据集中的观察值数量，α和β是控制尾部形状和异态性的参数，和是考虑尾部形状和异态性的部分。

10、作为本专利技术所述基于数据倾斜模型的动态分区方法的一种优选方案，其中：所述适应度函数做出改进，引入权衡因子γ使其在[0，1]范围内变化，公式表示为：

11、

12、其中，当γ为0时，公式等效于原始skewness公式；当γ为1时，表示两者的影响具有相等的权重。

13、作为本专利技术所述基于数据倾斜模型的动态分区方法的一种优选方案，其中：所述适应度函数进行选择概率的计算，公式表示为：

14、

15、其中，weightfiteness，weighttailshpe和weightheterogeneity分别是适应度、尾部形状和异态性的权重。

16、作为本专利技术所述基于数据倾斜模型的动态分区方法的一种优选方案，其中：应用所述适应度函数对个体进行评估，结合个体的特性，包括尾部形状、异态性，判断此时适应度函数的解是否为最优解。所述最优解的判断为迭代次数达到上限，或者以适应度的最大值作为最优解，当前时刻的解与最大值作比较，若当前时刻的解大于最大值，则以当前时刻的解作为最大值，同理依次延伸，若当前时刻的解，上一时刻的解与当前最大值三者相差不超过当前最大值的m％则以当前最大值作为最优解。

17、作为本专利技术所述基于数据倾斜模型的动态分区方法的一种优选方案，其中：所述分区优化策略包括，随机数分区、随机数策略进行二次分配哈希分区和相邻位置的哈希分区。所述随机数分区为假定有n＜key，value＞键值对，m个分区，若n个数据能够随机分配到m个分区中，则分配结果是均匀的，使用随机函数返回0～(m-1)之间的分区编号。所述随机数策略进行二次分配哈希分区为使用随机数方式返回分区编号，用随机数函数返回分区编号，再次使用随机数方式操作获取数据总数；其次依据设定的分区数量，即可得到每个分区中的平均值，也为门限值，利用map缓存存放每个分区放入的数据数量，每次判断某个分区的数据数量是否达到了门限值，若达到了门限值，则遍历找到没有达到门限值的分区号，存放到对应的分区中。所述相邻位置的哈希分区为使用随机数的方式获得初步的分区号，其次找到这个分区号的相邻两个位置的分区号，利用map缓存存放每个分区的放入的数量，定义分区个数，哈希分区得到的分区号和分区个数取余，来获取该分区中已有个数，并获取相邻两个分区号对应的已有个数，对比三个分区号的数量，将数据放到分区号对应数据量最少的分区中返回最小分区号。

18、作为本专利技术所述基于数据倾斜模型的动态分区方法的一种优选方案，其中：所述重复优化的过程包括：使用损失函数调整数据倾斜评估模型，表示为，

19、

20、其中，为模型的预测值，yi是实际的数据倾斜度。引入q-learning强化学习算法，并在每个迭代中更新q值，表示为，

21、q(s，a)＝q(s，a)+α·(r+γ·maxa′q(s′，a′)-q(s，a))

22、其中，q(s，a)是状态s下执行动作a的当前q值，r是执行动作a后获得的即时奖励，α是学习率，γ是贴现因子，q(s′，a′)表示在下一个状态s′下执行的最佳动作a′对应的q值。

23、第二方面，本专利技术实施例提供了一种基于数据倾斜模型的动态分区系统，其包括：获取模块，用于获取数据并对其预处理。构建模块，用于构建模型，选择最优的分区优化策略。优化模块，用于对模型进行优化，实现动态分区的实时调整。

24、第三方面，本专利技术实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中：所述处理器执行所述计算机程序时实现上述的基于数据倾斜模型的动态分区方法的任一步骤。

本文档来自技高网...

【技术保护点】

1.一种基于数据倾斜模型的动态分区方法，其特征在于：包括，

2.如权利要求1所述的基于数据倾斜模型的动态分区方法，其特征在于：所述数据倾斜评估模型是基于进化算法的模型，包括，

3.如权利要求2所述的基于数据倾斜模型的动态分区方法，其特征在于：对所述适应度函数做出改进，引入权衡因子γ使其在[0,1]范围内变化，公式表示为：

4.如权利要求3所述的基于数据倾斜模型的动态分区方法，其特征在于：对所述适应度函数进行选择概率的计算，公式表示为，

5.如权利要求4所述的基于数据倾斜模型的动态分区方法，其特征在于：应用所述适应度函数对个体进行评估，结合个体的特性，包括尾部形状、异态性，判断此时适应度函数的解是否为最优解；

6.如权利要求5所述的基于数据倾斜模型的动态分区方法，其特征在于：所述分区优化策略包括，随机数分区、随机数策略进行二次分配哈希分区和相邻位置的哈希分区；

7.如权利要求6所述的基于数据倾斜模型的动态分区方法，其特征在于：所述重复优化的过程包括，

8.一种基于数据倾斜模型的动态分区系统，基于权利

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1～7任一所述的基于数据倾斜模型的动态分区方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1～7任一所述的基于数据倾斜模型的动态分区方法的步骤。

...

【技术特征摘要】

1.一种基于数据倾斜模型的动态分区方法，其特征在于：包括，

2.如权利要求1所述的基于数据倾斜模型的动态分区方法，其特征在于：所述数据倾斜评估模型是基于进化算法的模型，包括，

4.如权利要求3所述的基于数据倾斜模型的动态分区方法，其特征在于：对所述适应度函数进行选择概率的计算，公式表示为，

6.如权利要求5所述的基于数据倾斜模型...

【专利技术属性】
技术研发人员：庄冀，庄新妍，楚绪，刘秀云，董帅，
申请(专利权)人：华能伊敏煤电有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人