一种基于分布式流计算引擎Flink的关键字段实时去重方法技术

技术编号:32336198 阅读:32 留言:0更新日期:2022-02-16 18:44
本发明专利技术实施例公开了一种基于分布式流计算引擎Flink的关键字段实时去重方法。该方法包括:接收目标数据,并基于配置文件确定目标数据中的至少一个待去重关键字段;其中,目标数据为结构化数据;配置文件中包括与目标数据匹配的待去重关键字段;基于加密算法对各待去重关键字段进行加密确定加密数据;基于Flink设置计时器,以计时器中的起始时间为起始时间点,在计时器中的去重持续时间内,采用布隆过滤器对加密数据进行去重。通过执行本方案,可以实现对海量数据的关键字段进行高效地实时去重,可以节约存储空间,提高数据处理效率。提高数据处理效率。提高数据处理效率。

【技术实现步骤摘要】
一种基于分布式流计算引擎Flink的关键字段实时去重方法


[0001]本专利技术实施例涉及大数据处理
,尤其涉及一种基于分布式流计算引擎Flink的关键字段实时去重方法。

技术介绍

[0002]消除重复数据是实际业务中经常遇到的一类问题。在大数据领域,重复数据的删除有助于减少存储空间,并提高服务器的处理效率。在实时计算中,关键字段去重是一个增量和长期的过程。
[0003]相关技术中的实时字段去重方案如下:使用Redis将实时数据流中的每条数据都去Redis中进行判断或者使用无序不重复的HashSet。但是,如果使用Redis,每次都需要通过网络连接Redis服务,网络速度明显比缓存速度慢以及网络有可能存在不稳定性;如果使用HashSet,虽然不用考虑网络因素,但是将千万、亿级别的数据存入到HashSet时,数据越来越多,处理效率也就会大打折扣,同时也会占用大量的内存空间。

技术实现思路

[0004]本专利技术实施例提供一种基于分布式流计算引擎Flink的关键字段实时去重方法,可以实现对海量数据的关键字段进行高效地实本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分布式流计算引擎Flink的关键字段实时去重方法,其特征在于,包括:接收目标数据,并基于配置文件确定所述目标数据中的至少一个待去重关键字段;其中,所述目标数据为结构化数据;所述配置文件中包括与所述目标数据匹配的待去重关键字段;基于加密算法对各所述待去重关键字段进行加密确定加密数据;基于Flink设置计时器,以所述计时器中的起始时间为起始时间点,在所述计时器中的去重持续时间内,采用布隆过滤器对所述加密数据进行去重。2.根据权利要求1所述的方法,其特征在于,基于加密算法对各所述待去重关键字段进行加密确定加密数据,包括:采用所述目标数据中包含的逻辑关系将各所述待去重关键字段进行拼接,得到待去重关键字段字符串;基于所述加密算法对所述待去重关键字段字符串进行加密,确定加密数据。3.根据权利要求1所述的方法,其特征在于,所述加密算法包括MD5加密算法。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:若检测到所述计时器的计数值与所述去重持续时间满足预设约束条件,则将所述布隆过滤器进行重置;控制计时器根据去重持续时间再次计时,并控制布隆过滤器执行去重操作。5.根据权利要求1所述的方法,其特征在于,采用布隆过滤器对所述加密数据进行去重,包括:若基于所述布隆过滤器确定所述加密数据已经存在,则将所述加密数据进行丢弃。6.根据权利要求1所述的方法,其特征在于,采用布隆过滤器对所述加密数据进行去重,包括:若基于所述布隆过滤器确定所述加...

【专利技术属性】
技术研发人员:任丽超张俊杰冯宇波毛勇岗
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1