数据处理的方法、装置、计算机设备以及存储介质制造方法及图纸

技术编号:28708522 阅读:27 留言:0更新日期:2021-06-05 23:17
本公开涉及一种数据处理的方法、装置、计算机设备以及存储介质。方法包括:将待连接的第一数据集和第二数据集分别拆分为多个第一分区和多个第二分区;确定多个第一分区和多个第二分区中的每个分区的数据量;根据第一数据集和第二数据集的连接类型以及所确定的每个分区的数据量,选择性地对多个第一分区和多个第二分区进行再拆分,以得到多个第一数据集分区和多个第二数据集分区;以及将多个第一数据集分区和多个第二数据集分区分配至各自的计算节点以进行第一数据集和第二数据集的连接。算节点以进行第一数据集和第二数据集的连接。算节点以进行第一数据集和第二数据集的连接。

【技术实现步骤摘要】
数据处理的方法、装置、计算机设备以及存储介质


[0001]本公开涉及大数据以及数据处理
,特别是涉及一种数据处理的方法、装置、计算机设备、非暂态计算机可读存储介质以及计算机程序产品。

技术介绍

[0002]大数据是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。面对如此规模大的数据,需要通过大数据计算集群来对其进行处理、分析以及聚合,以从这些数据中找到有用的信息,从而为上层应用提供服务以及为用户提供决策。
[0003]在大数据计算集群中,由于键值分布不均匀、业务数据本身特性或者建表时考虑不周等原因,可能产生数据倾斜的情况,即,计算集群中的各个节点的数据分布不均。这将导致某些节点的读/写请求过多、负载过大以及计算时间过长,从而影响大数据集群的整体的计算速度。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理的方法,包括:将待连接的第一数据集和第二数据集分别拆分为多个第一分区和多个第二分区;确定所述多个第一分区和所述多个第二分区中的每个分区的数据量;根据所述第一数据集和所述第二数据集的连接类型以及所确定的每个分区的数据量,选择性地对所述多个第一分区和所述多个第二分区进行再拆分,以得到多个第一数据集分区和多个第二数据集分区;以及将所述多个第一数据集分区和所述多个第二数据集分区分配至各自的计算节点以进行所述第一数据集和所述第二数据集的连接。2.根据权利要求1所述的方法,其中,所述连接类型包括以下各项中的一种:内连接、左连接以及右连接。3.根据权利要求2所述的方法,其中,所述选择性地对所述多个第一分区和所述多个第二分区进行再拆分包括:响应于确定所述连接类型为内连接,对于所述多个第一分区和所述多个第二分区两者中的每个分区:确定该分区的数据量是否大于阈值;以及响应于确定该分区的数据量大于阈值,对该分区进行再拆分。4.根据权利要求2所述的方法,其中,所述选择性地对所述多个第一分区和所述多个第二分区进行再拆分包括:响应于确定所述连接类型为左连接,对于所述多个第一分区中的每个分区:确定该分区的数据量是否大于阈值;以及响应于确定该分区的数据量大于阈值,对该分区进行再拆分。5.根据权利要求2所述的方法,其中,所述选择性地对所述多个第一分区和所述多个第二分区进行再拆分包括:响应于确定所述连接类型为右连接,对于所述多个第二分区两者中的每个分区:确定该分区的数据量是否大于阈值;以及响应于确定该分区的数据量大于阈值,对该分区进行再拆分。6.根据权利要求1至5中任一项所述的方法,其中,所述多个第一分区和所述多个第二分区一一对应,并且其中,所述选择性地对所述多个第一分区和所述多个第二分区进行再拆分还包括:响应于确定所述多个第一分区中的某个第一分区被再拆分,对所述多个第二分区中与该第一分区对应的第二分区进行复制,使得得到的所述多个第一数据集分区和所述多个第二数据集分区一一对应。7.根据权利要求1至5中任一项所述的方法,其中,所述多个第一分区和所述多个第二分区一一对应,并且其中...

【专利技术属性】
技术研发人员:向鹏杨令卿黄江
申请(专利权)人:北京中经惠众科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1