【技术实现步骤摘要】
一种数据表的关联方法、装置、设备及存储介质
[0001]本申请实施例涉及计算机
,尤其涉及一种数据表的关联方法、装置、设备及存储介质。
技术介绍
[0002]在数据仓库进行数据清洗时,其中一种常用的清洗方式是数据表和数据表之间的关联,这种数据仓库中的数据表之间的关联可以称为join操作。参与join的数据表中通常具有相同的关联键(数据表之间关联时使用的连接字段),如果将关联键称为key,例如,其中一个数据表中存储该key与信息A的对应关系,另一个数据表中存储该Key与信息B的对应关系,在两者join时,可以根据关联键key,将对应相同key的信息A和信息B组合在一张新数据表中,该新数据表可以包含该key与对应的信息A、信息B。
[0003]然而,在关联过程中,经常会遇到数据倾斜的问题。数据倾斜指数据分布不均而导致数据处理节点负载不均衡、任务“长尾”的问题。它是分布式数据处理系统中常见的一种现象,造成这种现象的主要原因是数据的关联键分布不均衡,在并行计算的时候大量相同的关联键被分配到一台主机处理,造成“单机繁忙, ...
【技术保护点】
【技术特征摘要】
1.一种数据表的关联方法,其特征在于,包括:获取第一数据表和第二数据表,所述第一数据表包含倾斜数据和非倾斜数据,所述倾斜数据对应多个相同的目标关联键;从所述第一数据表中提取所述目标关联键,并将所述目标关联键放入参数表中;调用第一哈希函数,基于所述参数表,将所述第一数据表中的每个目标关联键散列成多个随机取值中任意一个随机取值,获得第一数据分表;调用第二哈希函数,基于所述参数表,将所述第二数据表中的每个目标关联键散列成所述多个随机取值,获得第二数据分表;将所述第一数据分表和所述第二数据分表关联,获得关联结果表。2.如权利要求1所述的方法,其特征在于,所述从所述第一数据表中提取所述目标关联键,并将所述目标关联键放入参数表中,包括:对所述第一数据表中的各个原始关联键的数量进行统计,获得每个原始关联键的数量;针对每个原始关联键,若所述原始关联键的数量大于预设阈值,则将所述原始关联键作为目标关联键放入参数表中。3.如权利要求1所述的方法,其特征在于,所述参数表中还包括:所述第一数据表中包含的所述目标关联键的数量。4.如权利要求1所述的方法,其特征在于,所述调用第一哈希函数,基于所述参数表,将所述第一数据表中的每个目标关联键散列成多个随机取值中任意一个随机取值,获得第一数据分表,包括:将所述参数表和所述第一数据表中的各个原始关联键,传入所述第一哈希函数;通过所述第一哈希函数,基于所述第一数据表中的各个原始关联键分别与所述参数表之间的匹配关系,确定所述第一数据表中的目标关联键,并将每个目标关联键散列成多个随机取值中任意一个随机取值,获得第一数据分表。5.如权利要求4所述的方法,其特征在于,所述通过所述第一哈希函数,基于所述第一数据表中的各个原始关联键分别与所述参数表之间的匹配关系,确定所述第一数据表中的目标关联键,并将每个目标关联键散列成多个随机取值中任意一个随机取值,获得第一数据分表,包括:针对所述第一数据表中的每个原始关联键,若所述原始关联键与所述参数表中的目标关联键匹配,则所述原始关联键为目标关联键,且所述第一哈希函数输出所述多个随机取值中任意一个随机取值;将所述第一哈希函数输出的随机取值,添加至所述第一数据表中,获得所述第一数据分表。6.如权利要求5所述的方法,其特征在于,还包括:若所述原始关联键与所述目标关联键不匹配,则所述第一哈希函数输出所述原始关联键。7.如权利要求1所述的方法,其特征在于,所述调用第二哈希函数,基于所述参数表,将所述第二数据表中...
【专利技术属性】
技术研发人员:王亚雄,王颖卓,郭宝林,姚远,郑丹,蔡昱,王波,郭开卫,
申请(专利权)人:中国银联股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。