大数据查重方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:23558086 阅读:68 留言:0更新日期:2020-03-25 03:44
本发明专利技术涉及大数据查重方法、装置、计算机设备及存储介质,该方法包括获取需查重数据;预处理需查重数据,以得到Simhash值;根据该值内需要确认重复的数值进行组构建以得到分组,将需查重数据归类至分组内以得到组内数据数量;当组内数据数量不预设条件,剔除组内数据数量最多的分组以得到目标分组;对目标分组内的数据计算相似度比较值以得到相似度值;判断相似度值是否超过预设阈值;若否,则对所剔除的组内数据数量最多的分组进行数据拷贝及组细分处理,得到细分后的每个组内的数据数量,并以此更新组内数据数量;当组内数据数量不满足终止条件,返回判断组内数据数量是否满足预设条件。本发明专利技术实现数据处理量小,计算效率高。

Method, device, computer equipment and storage medium of big data duplicate checking

【技术实现步骤摘要】
大数据查重方法、装置、计算机设备及存储介质
本专利技术涉及数据处理方法,更具体地说是指大数据查重方法、装置、计算机设备及存储介质。
技术介绍
大数据时代正在来临,大数据处理技术越来越重要。数据库存储的海量数据中有相当一部分是重复的,重复的数据不仅会对数据分析处理的速度产生影响,也会在一定程度上影响准确性,因此进行数据查重是一个必要的工作。Simhash算法是目前大数据查重的一种主要方法,Simhash算法是Google在2007年发表的论文《DetectingNear-DuplicatesforWebCrawling》中提到的一种指纹生成算法,被应用在Google搜索引擎网页去重的工作之中。简单的说,Simhash算法主要的工作就是将文本进行降维,生成一个Simhash值,也就是指纹,通过对不同文本的Simhash值进而比较海明距离,从而判断两个文本的相似度。但是传统Simhash算法对于传统的Simhash值检索,每读取一条数据,需要比对所有的数据来寻找某8位相同的,然后再进行相似度的计算,在检索大量数据时这个比对数量是很庞大的,且如本文档来自技高网...

【技术保护点】
1.大数据查重方法,其特征在于,包括:/n获取需查重数据;/n对所述需查重数据进行预处理,以得到Simhash值;/n根据Simhash值内需要确认重复的数值进行组构建,以得到分组,将所述需查重数据归类至所述分组内,以得到组内数据数量;/n判断所述组内数据数量是否满足预设条件;/n若所述组内数据数量满足预设条件,则剔除组内数据数量最多的分组,以得到目标分组;/n对目标分组内的数据计算相似度比较值,以得到相似度值;/n判断所述相似度值是否超过预设阈值;/n若所述相似度值不超过预设阈值,则对所剔除的组内数据数量最多的分组进行数据拷贝及组细分处理,得到细分后的每个组内的数据数量,并以细分后的每个组内...

【技术特征摘要】
1.大数据查重方法,其特征在于,包括:
获取需查重数据;
对所述需查重数据进行预处理,以得到Simhash值;
根据Simhash值内需要确认重复的数值进行组构建,以得到分组,将所述需查重数据归类至所述分组内,以得到组内数据数量;
判断所述组内数据数量是否满足预设条件;
若所述组内数据数量满足预设条件,则剔除组内数据数量最多的分组,以得到目标分组;
对目标分组内的数据计算相似度比较值,以得到相似度值;
判断所述相似度值是否超过预设阈值;
若所述相似度值不超过预设阈值,则对所剔除的组内数据数量最多的分组进行数据拷贝及组细分处理,得到细分后的每个组内的数据数量,并以细分后的每个组内的数据数量更新所述组内数据数量;
判断所述组内数据数量是否满足终止条件;
若所述组内数据数量不满足终止条件,则返回所述判断所述组内数据数量是否满足预设条件。


2.根据权利要求1所述的大数据查重方法,其特征在于,所述判断所述相似度值是否超过预设阈值之后,还包括:
若所述相似度值超过预设阈值,则输出需查重数据存在重复的通知至终端,以进行显示。


3.根据权利要求1所述的大数据查重方法,其特征在于,所述判断所述组内数据数量是否满足终止条件之后,还包括:
若所述组内数据数量满足终止条件,则输出需查重数据不存在重复的通知至终端,以进行显示。


4.根据权利要求1所述的大数据查重方法,其特征在于,所述对所述需查重数据进行预处理,以得到Simhash值,包括:
对需查重数据进行分词划分,以得到单个数据;
获取单个数据的特征值;
对单个数据的特征值进行哈希值计算,以得到Simhash值。


5.根据权利要求1所述的大数据查重方法,其特征在于,所述预设条件包括组内数据数量的方差大于方差阈值或组内数据数量占据总数的百分比超过百分比阈值。


6.根据权利要求1所述的大数据查重方法,其特征在于,所述对所剔除的组内数据数量最多的分组进行数据拷贝及组细分处理,得到细分后的每个组内的数据数量,并以细分后的每个组内的数据数量更新所述组内数据数量,包括:
对于所剔除的组内数...

【专利技术属性】
技术研发人员:林必毅熊俊杰宋梦培朱吉山袁爱钧李颖杨瑞李靖
申请(专利权)人:湖南赛吉智慧城市建设管理有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1