【技术实现步骤摘要】
数据处理方法、装置、电子设备及可读存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质。
技术介绍
[0002]传统算法中,在面临大数据体量的实时计算时,通常会采用基于哈希表的数据结构,然而在面临大量数据明细无法连接,可聚合力度很低的大数据体量时,采用基于哈希表的数据结构将会导致计算效率降低,聚合算子的计算性能降低,无法满足实际计算需求。
技术实现思路
[0003]本专利技术提供一种数据处理方法、装置、电子设备及可读存储介质,用以解决现有技术在面临大量数据明细无法连接,可聚合力度很低的大数据体量时计算效率较低的技术问题,提供了一种结合布隆过滤器辅助哈希表实现高耗时算子性能提升的技术方案。
[0004]第一方面,本专利技术提供了一种数据处理方法,包括:
[0005]计算每一行数据的哈希值;
[0006]在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:计算每一行数据的哈希值;在布隆过滤器中匹配每一行数据的哈希值,对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值相匹配的情况下,将所述哈希值确定为群聚哈希值,输入所述群聚哈希值至哈希表中,以在所述哈希表中记录每一群聚哈希值与计数值的对应关系;遍历所有哈希值,确定所有群聚哈希值,将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值;所述哈希值集群是在匹配每一行数据的哈希值的过程中确定的;所述群聚哈希值为计数值超过预设数值的哈希值;所述孤立哈希值为计数值不超过预设数值的哈希值。2.根据权利要求1所述的数据处理方法,其特征在于,在布隆过滤器中匹配每一行数据的哈希值之后,还包括:在布隆过滤器中构建哈希值集群;对于任一哈希值,在与当前匹配状态下所对应的哈希值集群中的待测哈希值不相匹配的情况下,将所述哈希值标记为待测哈希值;输入所述待测哈希值至所述哈希值集群中,以更新所述哈希值集群。3.根据权利要求2所述的数据处理方法,其特征在于,在遍历所有哈希值之后,还包括:输入所有待测哈希值至所述哈希值集群中,以根据所有待测哈希值确定最终哈希值集群。4.根据权利要求3所述的数据处理方法,其特征在于,所述将不存在于群聚哈希值中的任一待测哈希值确定为孤立哈希值,直至确定出所有孤立哈希值,包括:确定所有群聚哈希值;将所述最终哈希值集群中的每一待测哈希值与所有群聚哈希值进行匹配;对于任一待测哈希值,若无法与任一群聚哈希值相匹配,确定所述待测哈希值为孤立哈希值,直至确定出所有孤立哈希值。5.根据权利要求1所述的数据处理方法,其特征在于,所述在所述哈希表中记录每一群聚哈希值与计数值的对应关系,包括:若任一群聚哈希值不存在于所述哈希表中,创建所...
【专利技术属性】
技术研发人员:李斌,张勇,
申请(专利权)人:北京东方国信科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。