【技术实现步骤摘要】
消息队列大数据去重处理方法
本专利技术涉及大数据技术,特别涉及大数据中数据清洗技术。
技术介绍
在数据清洗技术中,从海量终端上报的信息需要写入数据仓库(Kafka采集端),对消息队列中流式大数据的重复数据进行清洗,目前的数据去重处理方式为:第一步,获取需要清洗的一条数据;第二步,通过流式计算处理程序,在数据仓库查找该条数据记录是否存在;第三步,返回数据记录查找结果;第四步,流式计算处理程序根据结果处理,结果为存在则丢弃该数据,结果为不存在则将该数据写入数据仓库。但是该方法只适用于单条数据量较小的数据处理,对于单条数据量很大的情况(单条数据量大于100KB),则会因为计算查找处理,导致计算资源负载高,并且多余数据丢失,造成数据完整性无法保证的现象。
技术实现思路
本专利技术的目的是要解决目前数据去重处理方法只适用于单条数据量较小的数据处理的问题,提供了一种数据实时写入去重处理方法。本专利技术解决其技术问题,采用的技术方案是,消息队列大数据去重处理方法,其特征在于,包括以下步骤:步骤1、在将数据信息去重处理时,针对消息队列中的一个数据,采用SHA1安全哈希算法,将数据内容 ...
【技术保护点】
消息队列大数据去重处理方法,其特征在于,包括以下步骤:步骤1、在将数据信息去重处理时,针对消息队列中的一个数据,采用SHA1安全哈希算法,将数据内容进行摘要处理获取对应的SHA1码;步骤2、将获取的SHA1码与所存储的各SHA1码进行比对,判断是否存储有相同的SHA1码,若是则丢弃该数据,否则存储该SHA1码,且将该数据写入数据仓库。
【技术特征摘要】
1.消息队列大数据去重处理方法,其特征在于,包括以下步骤:步骤1、在将数据信息去重处理时,针对消息队列中的一个数据,采用SHA1安全哈希算法,将数据内容进行摘要处理获取对应的SHA1码;步骤2、将获取的SHA1码与所存储的各SHA1码进行比对,判断是否存储有相同的SHA1码,若是则丢弃该数据,否则存储该SHA1...
【专利技术属性】
技术研发人员:蒲文龙,李苏华,陈长江,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。