【技术实现步骤摘要】
本专利技术涉及大数据处理
,特别是一种流式大数据去重的方法。
技术介绍
在实时消息处理的系统中,过滤掉海量数据中的重复记录有着非同寻常的意义。传统的大数据去重算法有Bloom Filter等,但是Bloom Filter算法需要预先设定需要去重的数据量和假阳性概率,这种约束可以满足已知容量的大数据去重的要求,却不能满足实时消息处理的场景。中国专利技术专利CN 104778193 A公开了一种数据去重方法,包括:向采集设备发送数据采集请求,以使所述采集设备从网络上采集数据,所述数据为网络数据包或通信指令;接收所述采集设备发送的第一数据;检测缓存中是否存有所述第一数据,若存有所述第一数据,则将所述第一数据丢弃,若未存有所述第一数据,则将所述第一数据插入缓存。此专利技术只需要存储一份数据就可以完成去重,不仅能够达到数据去重的目的,而且节约了系统资源。
技术实现思路
本专利技术需要解决的技术问题提供一种实时消息系统中流式大数据去重的方法。为解决上述的技术问题,本专利技术的一种流式大数据去重的方法,使用多个Bloom Filter轮换的方式来进行不间断实时消息处理。进一 ...
【技术保护点】
一种流式大数据去重的方法,其特征在于:使用多个Bloom Filter轮换的方式来进行不间断实时消息处理。
【技术特征摘要】
1.一种流式大数据去重的方法,其特征在于:使用多个Bloom Filter轮换的方式来进行不间断实时消息处理。2.按照权利要求1所述的一种流式大数据去重的方法,其特征在于,所述多个Bloom Filter轮换的方式为预写方式,往当前使用的Bloom Filter中写入数据时,也往下一个将要使用的Bloom Filter预写数据,下一个Bloom Filter容量达到一半时,将当前使用的Bloom Filte...
【专利技术属性】
技术研发人员:陈海文,黄三伟,
申请(专利权)人:湖南蚁坊软件有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。