一种流式大数据去重的方法技术

技术编号:13773359 阅读:118 留言:0更新日期:2016-09-29 22:58
本发明专利技术涉及大数据处理技术领域,特别是一种流式大数据去重的方法,使用多个Bloom Filter轮换的方式来进行不间断实时消息处理。采用上述方法后,本发明专利技术具有以下优点:1、在实时消息处理中,不需要停顿,保证消息处理的连续性和实时性;2、由于消息重复率一般符合正态分布,本方法总是保留最近一段时间的数据作为去重的依据,可以去除绝大部分重复数据达到满意的去重效果。

【技术实现步骤摘要】

本专利技术涉及大数据处理
,特别是一种流式大数据去重的方法
技术介绍
在实时消息处理的系统中,过滤掉海量数据中的重复记录有着非同寻常的意义。传统的大数据去重算法有Bloom Filter等,但是Bloom Filter算法需要预先设定需要去重的数据量和假阳性概率,这种约束可以满足已知容量的大数据去重的要求,却不能满足实时消息处理的场景。中国专利技术专利CN 104778193 A公开了一种数据去重方法,包括:向采集设备发送数据采集请求,以使所述采集设备从网络上采集数据,所述数据为网络数据包或通信指令;接收所述采集设备发送的第一数据;检测缓存中是否存有所述第一数据,若存有所述第一数据,则将所述第一数据丢弃,若未存有所述第一数据,则将所述第一数据插入缓存。此专利技术只需要存储一份数据就可以完成去重,不仅能够达到数据去重的目的,而且节约了系统资源。
技术实现思路
本专利技术需要解决的技术问题提供一种实时消息系统中流式大数据去重的方法。为解决上述的技术问题,本专利技术的一种流式大数据去重的方法,使用多个Bloom Filter轮换的方式来进行不间断实时消息处理。进一步的,所述多个Blo本文档来自技高网...

【技术保护点】
一种流式大数据去重的方法,其特征在于:使用多个Bloom Filter轮换的方式来进行不间断实时消息处理。

【技术特征摘要】
1.一种流式大数据去重的方法,其特征在于:使用多个Bloom Filter轮换的方式来进行不间断实时消息处理。2.按照权利要求1所述的一种流式大数据去重的方法,其特征在于,所述多个Bloom Filter轮换的方式为预写方式,往当前使用的Bloom Filter中写入数据时,也往下一个将要使用的Bloom Filter预写数据,下一个Bloom Filter容量达到一半时,将当前使用的Bloom Filte...

【专利技术属性】
技术研发人员:陈海文黄三伟
申请(专利权)人:湖南蚁坊软件有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1