表格连接方法及相关产品技术

技术编号:39324420 阅读:4 留言:0更新日期:2023-11-12 16:03
本申请属于计算机技术领域,具体涉及一种表格连接方法、表格连接装置、计算机可读介质、电子设备以及计算机程序产品。该方法包括:根据作为表格连接依据的键值,从两个待连接的表格中提取对应于所述键值的字段数据;对提取到的字段数据进行分区处理,得到对应于不同计算节点的多组分区数据;在各个所述计算节点上对分别归属于两个待连接的表格的两组分区数据进行匹配筛选,得到所述两组分区数据的交集数据;根据各个计算节点筛选得到的交集数据更新所述待连接的表格。本申请实施例可以降低表格连接的计算资源消耗。连接的计算资源消耗。连接的计算资源消耗。

【技术实现步骤摘要】
表格连接方法及相关产品


[0001]本申请属于计算机
,具体涉及一种表格连接方法、表格连接装置、计算机可读介质、电子设备以及计算机程序产品。

技术介绍

[0002]在数据库的应用场景中,经常需要将数据库中的多个不同的表格连接组合起来,以便同时使用不同表格中的数据。在对表格进行连接组合时,一般会将表格内的所有数据行和数据列做多次地复制和传输,随着表格规模越来越大,表格间的连接组合操作将会消耗大量的计算资源和网络传输资源,导致计算机运行性能下降。

技术实现思路

[0003]本申请提供一种表格连接方法、表格连接装置、计算机可读介质、电子设备以及计算机程序产品,目的在于降低表格连接的计算资源消耗。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面,提供一种表格连接方法,该方法包括:
[0006]根据作为表格连接依据的键值,从两个待连接的表格中提取对应于所述键值的字段数据;
[0007]对提取到的字段数据进行分区处理,得到对应于多个计算节点的多组分区数据;
[0008]在各个所述计算节点上对分别归属于两个所述待连接的表格的两组分区数据进行匹配筛选,得到所述两组分区数据的交集数据;
[0009]根据各个计算节点筛选得到的交集数据更新所述待连接的表格。
[0010]根据本申请实施例的一个方面,提供一种表格连接装置,该装置包括:
[0011]提取模块,被配置为根据作为表格连接依据的键值,从两个待连接的表格中提取对应于所述键值的字段数据;
[0012]分区模块,被配置为对提取到的字段数据进行分区处理,得到对应于多个计算节点的多组分区数据;
[0013]筛选模块,被配置为在各个所述计算节点上对分别归属于两个所述待连接的表格的两组分区数据进行匹配筛选,得到所述两组分区数据的交集数据;
[0014]更新模块,被配置为根据各个计算节点筛选得到的交集数据更新所述待连接的表格。
[0015]在本申请的一些实施例中,基于以上技术方案,所述更新模块包括:
[0016]数据合并模块,被配置为合并各个计算节点筛选得到的交集数据;
[0017]数据行更新模块,被配置为根据合并得到的所述交集数据更新所述待连接的表格的数据行;
[0018]数据列更新模块,被配置为向所述待连接的表格中添加用于表示所述交集数据的
索引值的数据列。
[0019]在本申请的一些实施例中,基于以上技术方案,所述数据行更新模块包括:
[0020]数据行筛选模块,被配置为将所述待连接的表格的各个数据行与所述交集数据进行匹配筛选,得到所述待连接的表格中包含所述交集数据的数据行;
[0021]数量获取模块,被配置为获取所述交集数据在所述待连接的表格中的分布数量,所述分布数量是包含所述交集数据的数据行的数量;
[0022]数据行复制模块,被配置为根据合并得到的所述交集数据在一个所述待连接的表格中的分布数量,在另一个所述待连接的表格中复制并添加所述交集数据所在的数据行。
[0023]在本申请的一些实施例中,基于以上技术方案,所述数据列更新模块包括:
[0024]第一索引模块,被配置为获取用于区分所述交集数据的不同取值的初级索引值;
[0025]第二索引模块,被配置为获取用于在两个所述待连接的表格之间区分所述交集数据所在不同数据行的次级索引值;
[0026]索引值添加模块,被配置为向所述待连接的表格中添加包含所述初级索引值和所述次级索引值的数据列。
[0027]在本申请的一些实施例中,基于以上技术方案,所述第二索引模块包括:
[0028]偏移量确定模块,被配置为根据合并得到的所述交集数据在所述待连接的表格中的分布数量,确定与所述交集数据相关联的偏移量,所述分布数量是包含所述交集数据的数据行的数量,所述偏移量用于在单个表格中区分所述交集数据所在的不同数据行;
[0029]索引值确定模块,被配置为根据所述分布数量和所述偏移量确定用于在两个所述待连接的表格之间区分所述交集数据所在不同数据行的次级索引值。
[0030]在本申请的一些实施例中,基于以上技术方案,所述索引值确定模块包括:
[0031]规则获取模块,被配置为获取互为镜像关系的第一映射规则和第二映射规则,所述镜像关系用于表示所述两个映射规则在相同的位置上使用不同表格的映射参数;
[0032]第一映射模块,被配置为根据所述第一映射规则和第二映射规则中的一个对所述分布数量和所述偏移量进行映射处理,得到本侧表格中交集数据所在各个数据行的次级索引值;所述本侧表格为两个所述待连接的表格中的一个表格;
[0033]第二映射模块,被配置为根据所述第一映射规则和第二映射规则中的另一个对所述分布数量和所述偏移量进行映射处理,得到对侧表格中交集数据所在各个数据行的次级索引值;所述对侧表格为两个所述待连接的表格中的另一个表格。
[0034]在本申请的一些实施例中,基于以上技术方案,所述第一映射规则包括:将对侧表格的分布数量与本侧表格的偏移量求积之后,与对侧表格的偏移量求和;
[0035]所述第二映射规则包括:将本侧表格的分布数量与对侧表格的偏移量求积之后,与本侧表格的偏移量求和;
[0036]其中,所述本侧表格为两个所述待连接的表格中的一个表格,所述对侧表格为两个所述待连接的表格中的另一个表格。
[0037]在本申请的一些实施例中,基于以上技术方案,所述提取模块包括:
[0038]分区获取模块,被配置为分别获取组成两个待连接的表格的至少两个表格分区,所述至少两个表格分区分布于不同的计算节点上;
[0039]字段提取模块,被配置为根据作为表格连接依据的键值,从所述至少两个表格分
区中提取对应于所述键值的字段数据。
[0040]在本申请的一些实施例中,基于以上技术方案,所述分区模块包括:
[0041]哈希运算模块,被配置为对提取到的字段数据进行哈希运算,得到所述字段数据的哈希值;
[0042]字段分区模块,被配置为根据所述哈希值对所述字段数据进行分区处理,得到对应于多个计算节点的多组分区数据。
[0043]在本申请的一些实施例中,基于以上技术方案,所述字段分区模块包括:
[0044]数量获取模块,被配置为获取用于处理字段数据的计算节点的节点数量;
[0045]哈希值映射模块,被配置为根据所述节点数量对所述哈希值进行映射处理,得到与所述节点数量相同的哈希值集合;
[0046]集合分配模块,被配置为将所述哈希值集合分配至各个计算节点,并根据分配结果确定对应于多个所述计算节点的多组分区数据。
[0047]在本申请的一些实施例中,基于以上技术方案,所述筛选模块包括:
[0048]数量比较模块,被配置为在所述计算节点上比较分别归属于两个待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格连接方法,其特征在于,包括:根据作为表格连接依据的键值,从两个待连接的表格中提取对应于所述键值的字段数据;对提取到的字段数据进行分区处理,得到对应于多个计算节点的多组分区数据;在各个所述计算节点上对分别归属于两个所述待连接的表格的两组分区数据进行匹配筛选,得到所述两组分区数据的交集数据;根据各个计算节点筛选得到的交集数据更新所述待连接的表格。2.根据权利要求1所述的表格连接方法,其特征在于,根据各个计算节点筛选得到的交集数据更新所述待连接的表格,包括:合并各个计算节点筛选得到的交集数据;根据合并得到的所述交集数据更新所述待连接的表格的数据行;向所述待连接的表格中添加用于表示所述交集数据的索引值的数据列。3.根据权利要求2所述的表格连接方法,其特征在于,根据合并得到的所述交集数据更新所述待连接的表格的数据行,包括:将所述待连接的表格的各个数据行与所述交集数据进行匹配筛选,得到所述待连接的表格中包含所述交集数据的数据行;获取所述交集数据在所述待连接的表格中的分布数量,所述分布数量是包含所述交集数据的数据行的数量;根据合并得到的所述交集数据在一个所述待连接的表格中的分布数量,在另一个所述待连接的表格中复制并添加所述交集数据所在的数据行。4.根据权利要求2所述的表格连接方法,其特征在于,向所述待连接的表格中添加用于表示所述交集数据的索引值的数据列,包括:获取用于区分所述交集数据的不同取值的初级索引值;获取用于在两个所述待连接的表格之间区分所述交集数据所在不同数据行的次级索引值;向所述待连接的表格中添加包含所述初级索引值和所述次级索引值的数据列。5.根据权利要求4所述的表格连接方法,其特征在于,获取用于区分所述交集数据所在的不同数据行的次级索引值,包括:根据合并得到的所述交集数据在所述待连接的表格中的分布数量,确定与所述交集数据相关联的偏移量,所述分布数量是包含所述交集数据的数据行的数量,所述偏移量用于在单个表格中区分所述交集数据所在的不同数据行;根据所述分布数量和所述偏移量确定用于在两个所述待连接的表格之间区分所述交集数据所在不同数据行的次级索引值。6.根据权利要求5所述的表格连接方法,其特征在于,根据所述分布数量和所述偏移量确定用于在两个所述待连接的表格之间区分所述交集数据所在不同数据行的次级索引值,包括:获取互为镜像关系的第一映射规则和第二映射规则,所述镜像关系用于表示所述两个映射规则在相同的位置上使用不同表格的映射参数;根据所述第一映射规则和第二映射规则中的一个对所述分布数量和所述偏移量进行
映射处理,得到本侧表格中交集数据所在各个数据行的次级索引值;所述本侧表格为两个所述待连接的表格中的一个表格;根据所述第一映射规则和第二映射规则中的另一个对所述分布数量和所述偏移量进行映射处理,得到对侧表格中交集数据所在各个数据行的次级索引值;所述对侧表格为两个所述待连接的表格中的另一个表格。7.根据权利要求5所述的表格连接方法,其特征在于,所述第一映射规则包括:将对侧表格的分布数量与本侧表格的...

【专利技术属性】
技术研发人员:侯忱蒋杰刘煜宏陈鹏程勇范晓亮
申请(专利权)人:腾讯科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1