数据处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:36690693 阅读:8 留言:0更新日期:2023-02-27 19:57
本发明专利技术提供一种数据处理方法、装置、电子设备及可读存储介质,涉及计算机技术领域,该方法包括:计算每一行数据的哈希值;在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值。本发明专利技术能够减轻哈希表的工作负担,提高高耗时算子性能,提高数据库查询效率。提高数据库查询效率。提高数据库查询效率。

【技术实现步骤摘要】
数据处理方法、装置、电子设备及可读存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质。

技术介绍

[0002]传统算法中,在面临大数据体量的实时计算时,通常会采用基于哈希表的数据结构,然而在面临大量数据明细无法连接,可聚合力度很低的大数据体量时,采用基于哈希表的数据结构将会导致计算效率降低,聚合算子的计算性能降低,无法满足实际计算需求。

技术实现思路

[0003]本专利技术提供一种数据处理方法、装置、电子设备及可读存储介质,用以解决现有技术在面临大量数据明细无法连接,可聚合力度很低的大数据体量时计算效率较低的技术问题,提供了一种结合布隆过滤器辅助哈希表实现高耗时算子性能提升的技术方案。
[0004]第一方面,本专利技术提供了一种数据处理方法,包括:
[0005]计算每一行数据的哈希值;
[0006]在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;
[0007]遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;
[0008]所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;
[0009]所述群聚哈希值为计数值超过预设数值的哈希值;
[0010]所述孤立哈希值为计数值不超过预设数值的哈希值。
[0011]根据本专利技术提供的数据处理方法,在布隆过滤器中匹配每一行数据的哈希值之后,还包括:
[0012]在布隆过滤器中构建哈希值集群;
[0013]对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值不相匹配的情况下,将所述哈希值标记为待测哈希值;
[0014]输入所述待测哈希值至所述哈希值集群中,以更新所述哈希值集群。
[0015]根据本专利技术提供的数据处理方法,在遍历所有哈希值之后,还包括:
[0016]输入所有待测哈希值至所述哈希值集群中,以根据所有待测哈希值确定最终哈希值集群。
[0017]根据本专利技术提供的数据处理方法,所述将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,包括:
[0018]确定所有群聚哈希值;
[0019]将所述最终哈希值集群中的每一待测哈希值与所有群聚哈希值进行匹配;
[0020]对于任一待测哈希值,若无法与任一群聚哈希值相匹配,确定所述待测哈希值为孤立哈希值,直至确定出所有孤立哈希值。
[0021]根据本专利技术提供的数据处理方法,所述在所述哈希表中记录每一群聚哈希值与计数值的对应关系,包括:
[0022]若任一群聚哈希值不存在于所述哈希表中,创建所述群聚哈希值,并构建所述群聚哈希值与初始计数值的对应关系;
[0023]在任一群聚哈希值存在于所述哈希表中,聚合所述群聚哈希值。
[0024]根据本专利技术提供的数据处理方法,所述聚合所述群聚哈希值,包括:
[0025]查询所述群聚哈希值所对应的计数值;
[0026]根据所述计数值以及预设常数确定更新后计数值。
[0027]根据本专利技术提供的数据处理方法,在确定出所有孤立哈希值之后,还包括:
[0028]构建所有孤立哈希值以及每一孤立哈希值相对应的预设数值的第一对应关系;
[0029]构建所有群聚哈希值以及每一群聚哈希值相对应的计数值的第二对应关系;
[0030]将所述第一对应关系以及所述第二对应关系确定为结果集后,输出所述结果集。
[0031]第二方面,本专利技术提供了一种数据处理装置,包括:
[0032]计算单元:用于计算每一行数据的哈希值;
[0033]第一确定单元:用于在所述布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;
[0034]第二确定单元:用于遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;
[0035]所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;
[0036]所述群聚哈希值为计数值超过预设数值的哈希值;
[0037]所述孤立哈希值为计数值不超过预设数值的哈希值。
[0038]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据处理方法。
[0039]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据处理方法。
[0040]本专利技术提供的数据处理方法、装置、电子设备及可读存储介质,本专利技术通过计算原始输入数据中每一行数据的哈希值,在输入哈希表之前,先根据哈希值在布隆过滤器中查找,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,并在所述哈希表中记录群聚哈希值与计数值的对应关系,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,从而使得在哈希表中实现插入、聚合操作的哈希值,是经过孤立哈希值去重后的哈希值,进而减轻哈希表的工作负担,提高高耗时算子性能,提高数据库查询效率。
附图说明
[0041]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1是本专利技术提供的数据处理方法的流程示意图之一;
[0043]图2是本专利技术提供的数据处理方法的流程示意图之二;
[0044]图3是本专利技术提供的确定出所有孤立哈希值的流程示意图;
[0045]图4是本专利技术提供的记录每一群聚哈希值与计数值的对应关系的流程示意图;
[0046]图5是本专利技术提供的数据处理方法的流程示意图之三;
[0047]图6是本专利技术提供的数据处理方法的流程示意图之四;
[0048]图7是本专利技术提供的数据处理装置的结构示意图;
[0049]图8是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0050]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:计算每一行数据的哈希值;在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;所述群聚哈希值为计数值超过预设数值的哈希值;所述孤立哈希值为计数值不超过预设数值的哈希值。2.根据权利要求1所述的数据处理方法,其特征在于,在布隆过滤器中匹配每一行数据的哈希值之后,还包括:在布隆过滤器中构建哈希值集群;对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值不相匹配的情况下,将所述哈希值标记为待测哈希值;输入所述待测哈希值至所述哈希值集群中,以更新所述哈希值集群。3.根据权利要求2所述的数据处理方法,其特征在于,在遍历所有哈希值之后,还包括:输入所有待测哈希值至所述哈希值集群中,以根据所有待测哈希值确定最终哈希值集群。4.根据权利要求3所述的数据处理方法,其特征在于,所述将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,包括:确定所有群聚哈希值;将所述最终哈希值集群中的每一待测哈希值与所有群聚哈希值进行匹配;对于任一待测哈希值,若无法与任一群聚哈希值相匹配,确定所述待测哈希值为孤立哈希值,直至确定出所有孤立哈希值。5.根据权利要求1所述的数据处理方法,其特征在于,所述在所述哈希表中记录每一群聚哈希值与计数值的对应关系,包括:若任一群聚哈希值不存在于所述哈希表中,创建所...

【专利技术属性】
技术研发人员:李斌张勇
申请(专利权)人:北京东方国信科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1