表数据处理方法、装置、设备及介质制造方法及图纸

技术编号:38714817 阅读:15 留言:0更新日期:2023-09-08 14:57
本申请公开了一种表数据处理方法、装置、设备及介质,涉及计算机技术领域,该方法包括:将各个目标表的主键数据进行去重,以得到去重后主键数据;其中,所述目标表是一种数据集合、存储和索引方式;利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位;将各个所述目标表中与所述目标点位不匹配的数据进行过滤,得到过滤后数据,以便利用所述过滤后数据执行预设表数据处理逻辑。能够在多种场景下减少表数据处理所需的资源。利用预设散列函数得到去重后主键数据在目标集合中的目标点位,将各个目标表中与目标点位不匹配的数据进行过滤,使得后续需要处理的数据大大减少,无需限制目标表的类型,因此在多种场景下,显著降低所需资源。降低所需资源。降低所需资源。

【技术实现步骤摘要】
表数据处理方法、装置、设备及介质


[0001]本专利技术涉及计算机
,特别涉及表数据处理方法、装置、设备及介质。

技术介绍

[0002]大数据时代,大表之间的关联分析一直是一个难题,目前主要通过增加集群资源或者调整业务逻辑的方法进行优化处理,但是大多数据场景只能增加集群资源去解决,随着数据量越来越大,这样数据处理成本越来越高,资源成本也会越来越大。除此之外,还可以通过大数据计算引擎进行关联性分析等处理,比如spark等,通过广播小表,提升表关联的分析计算性能,但是被广播的表数据量不能大,过大容易导致系统不稳定,并且被广播的表不能是主表,可见,目前完成表关联分析等处理目的时,限制要求较多,无法在多种情况下完成表处理的任务。
[0003]综上可见,如何在多种场景下减少表数据处理所需的资源是本领域有待解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种表数据处理方法、装置、设备及介质,能够在多种场景下减少表数据处理所需的资源。其具体方案如下:
[0005]第一方面,本申请公开了一种表数据处理方法,包括:
[0006]将各个目标表的主键数据进行去重,以得到去重后主键数据;其中,所述目标表是一种数据集合、存储和索引方式;
[0007]利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位;
[0008]将各个所述目标表中与所述目标点位不匹配的数据进行过滤,得到过滤后数据,以便利用所述过滤后数据执行预设表数据处理逻辑。
[0009]可选的,所述将各个目标表的主键数据进行去重,以得到去重后主键数据,包括:
[0010]基于预设条件读取各个目标表的主键数据,并对所述主键数据进行合并,以得到合并后主键数据;
[0011]将各个目标表的合并后主键数据进行去重,以得到去重后主键数据。
[0012]可选的,所述利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位,包括:
[0013]将所述去重后主键数据保存至预设存储位置中,以便从所述预设存储位置中获取所述去重后主键数据,并利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位;其中,所述预设存储位置为预设内存、预设第三方存储位置中任意一种。
[0014]可选的,所述利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位之前,还包括:
[0015]申请预设大小的目标集合,并确定预设散列函数。
[0016]可选的,所述利用预设散列函数得到所述去重后主键数据在目标集合中的目标点
位,包括:
[0017]利用预设散列函数计算所述去重后主键数据的散列函数值,并对所述散列函数值与目标集合的数据量进行取模运算,以得到对应的目标余数,然后将所述目标余数确定为所述去重后主键数据在所述目标集合中的目标点位。
[0018]可选的,所述利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位,包括:
[0019]从所述去重后主键数据中确定出当前主键数据,利用预设散列函数得到所述当前主键数据在目标集合中的目标点位,并将所述当前主键数据确定为已标记的主键数据;
[0020]判断当前是否存在未标记的主键数据,若存在则从所述去重后主键数据中确定出下一主键数据,将所述下一主键数据更新为当前主键数据,并重新跳转至所述利用预设散列函数得到所述当前主键数据在目标集合中的目标点位的步骤,直至当前不存在未标记的主键数据。
[0021]可选的,所述利用所述过滤后数据执行预设表数据处理逻辑,包括:
[0022]利用所述过滤后数据进行表数据关联分析;
[0023]和/或,利用所述过滤后数据进行表数据计算分析。
[0024]第二方面,本申请公开了一种表数据处理装置,包括:
[0025]数据去重模块,用于将各个目标表的主键数据进行去重,以得到去重后主键数据;其中,所述目标表是一种数据集合、存储和索引方式;
[0026]目标点位获取模块,用于利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位;
[0027]表数据处理模块,用于将各个所述目标表中与所述目标点位不匹配的数据进行过滤,得到过滤后数据,以便利用所述过滤后数据执行预设表数据处理逻辑。
[0028]第三方面,本申请公开了一种电子设备,包括:
[0029]存储器,用于保存计算机程序;
[0030]处理器,用于执行所述计算机程序,以实现前述公开的表数据处理方法的步骤。
[0031]第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的表数据处理方法的步骤。
[0032]本申请有益效果为:将各个目标表的主键数据进行去重,以得到去重后主键数据;其中,所述目标表是一种数据集合、存储和索引方式;利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位;将各个所述目标表中与所述目标点位不匹配的数据进行过滤,得到过滤后数据,以便利用所述过滤后数据执行预设表数据处理逻辑。能够在多种场景下减少表数据处理所需的资源。由此可见,利用预设散列函数得到去重后主键数据在目标集合中的目标点位,将各个目标表中与目标点位不匹配的数据进行过滤,如此一来,后续需要处理的数据大大减少,又因为无需限制目标表的类型,因此在多种场景下,均可以在减少所需处理的数据量的同时完成表数据处理任务。
附图说明
[0033]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0034]图1为本申请公开的一种表数据处理方法流程图;
[0035]图2为本申请公开的一种具体的主键数据提取示意图;
[0036]图3为本申请公开的一种具体的表数据处理方法流程图;
[0037]图4为本申请公开的一种具体的点位确定示意图;
[0038]图5为本申请公开的另一种具体的表数据处理方法流程图;
[0039]图6为本申请公开的一种具体的数据过滤示意图;
[0040]图7为本申请公开的一种表数据处理装置结构示意图;
[0041]图8为本申请公开的一种电子设备结构图。
具体实施方式
[0042]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]大数据时代,大表之间的关联分析一直是一个难题,目前主要通过增加集群资源或者调整业务逻辑的方法进行优化处理,但是大多数据场景只能增加集群资源去解决,随着数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表数据处理方法,其特征在于,包括:将各个目标表的主键数据进行去重,以得到去重后主键数据;其中,所述目标表是一种数据集合、存储和索引方式;利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位;将各个所述目标表中与所述目标点位不匹配的数据进行过滤,得到过滤后数据,以便利用所述过滤后数据执行预设表数据处理逻辑。2.根据权利要求1所述的表数据处理方法,其特征在于,所述将各个目标表的主键数据进行去重,以得到去重后主键数据,包括:基于预设条件读取各个目标表的主键数据,并对所述主键数据进行合并,以得到合并后主键数据;将各个目标表的合并后主键数据进行去重,以得到去重后主键数据。3.根据权利要求1所述的表数据处理方法,其特征在于,所述利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位,包括:将所述去重后主键数据保存至预设存储位置中,以便从所述预设存储位置中获取所述去重后主键数据,并利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位;其中,所述预设存储位置为预设内存、预设第三方存储位置中任意一种。4.根据权利要求1所述的表数据处理方法,其特征在于,所述利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位之前,还包括:申请预设大小的目标集合,并确定预设散列函数。5.根据权利要求1所述的表数据处理方法,其特征在于,所述利用预设散列函数得到所述去重后主键数据在目标集合中的目标点位,包括:利用预设散列函数计算所述去重后主键数据的散列函数值,并对所述散列函数值与目标集合的数据量进行取模运算,以得到对应的目标余数,然后将所述目标余数确定为所述去重后主键数据在所述目标集合中的目标点位...

【专利技术属性】
技术研发人员:程万胜
申请(专利权)人:政采云有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1