一种基于聚类的重复数据检测方法技术

技术编号:16885929 阅读:88 留言:0更新日期:2017-12-27 03:43
本发明专利技术公开了一种基于聚类的重复数据检测方法,其主要针对数据相似性较强的数据集类型,通过利用数据集中的数据相似性原理,提高重复数据检测的性能,同时提升数据去重的性能。具体而言,对于数据集中可能的重复数据,本发明专利技术利用相似性合并策略,先对检测指纹列表进行分段,每段选出代表性指纹,根据其代表性指纹将不同段分类并合并到不同的指纹容器中。指纹容器从数据集的相似段中收集重复的指纹,以增加数据去重的效率,同时提升去重的性能。指纹容器存储在磁盘上,它可以作为一个整体被写入和读出磁盘,这提高了指纹检索效率并克服了相似段的分段存储的问题。

A method of duplicated data detection based on Clustering

The invention discloses a clustering based repeated data detection method, mainly aiming at the data set type with strong data similarity, improves the performance of duplicate data detection and improves the performance of data De duplication by utilizing the data similarity principle of data set. Specifically, for the possible duplicated data in the data set, the present invention adopts the similarity merging strategy, first segmenting the detection fingerprint list, selecting the representative fingerprint from each segment, and classifying different segments according to their representative fingerprints, and merging them into different fingerprint containers. The fingerprint container collects repeated fingerprints from the similar segments of the data set to increase the efficiency of data removal and enhance the performance of the weight removal. Fingerprint container is stored on disk. It can be read and read as a whole. It improves the efficiency of fingerprint retrieval and overcomes the problem of segmented storage of similar segments.

【技术实现步骤摘要】
一种基于聚类的重复数据检测方法
本专利技术属于计算机存储
,更具体地,涉及一种基于聚类的重复数据检测方法和系统。
技术介绍
随着信息技术迅猛发展,信息已成为我们赖以生存的宝贵资源,成为了推动生产力快速发展的最大动力。信息技术的大量应用也伴随着海量的数据的产生,越来越多有价值的数据需要进行存储。那么,如何有效提高现有存储介质的存储效率,满足不断增长的存储需求,已经成为存储研究领域急迫解决的问题之一。同时,IDC公司调研报告显示现存约75%的数据为冗余信息,即仅有25%的数据具有唯一性。在此背景下,数据去重作为在较大空间范围内检测和消除冗余信息的一种新型技术成为近几年学术界和工业界的研究热点,并正被愈加广泛地应用到各种信息存储系统。重复指纹的检测是实现数据去重的重要技术手段,在现有的数据去重技术中,重复数据的检测主要是使用指纹检测的方式,即通过提取数据块的指纹(哈希值),再通过检测指纹的重复性来识别某个数据块是否为重复数据块。目前的重复指纹检测方法通常是采用单一的哈希表或B树等数据结构来实现重复指纹段的识别。然而,上述重复指纹检测方法存在的一个不可忽略的问题是,其检测性能较为低下,本文档来自技高网...
一种基于聚类的重复数据检测方法

【技术保护点】
一种基于聚类的重复数据检测方法,其特征在于,包括以下步骤:(1)从磁盘中获取指纹列表文件,判断是否能够从该指纹列表文件中获取到部分指纹,如果获取不到则过程结束,否则将获取到的部分指纹其存储在指纹输入缓存空间中,将指纹输入缓存空间中的所有指纹N进行分段,每M个指纹组成一个指纹段,其中N为所有指纹的数量,M为任意自然数;(2)设置计数器i=1;(3)判断i是否大于N/M,如果大于则返回步骤(1),否则进入步骤(4);(4)从步骤(1)得到的多个指纹段中取出第i个指纹段,并获取第i个指纹段中指纹值最小的指纹作为代表指纹,并判断该代表指纹是否位于内存中的代表指纹索引表中,如果是,则进入步骤(5),否则...

【技术特征摘要】
1.一种基于聚类的重复数据检测方法,其特征在于,包括以下步骤:(1)从磁盘中获取指纹列表文件,判断是否能够从该指纹列表文件中获取到部分指纹,如果获取不到则过程结束,否则将获取到的部分指纹其存储在指纹输入缓存空间中,将指纹输入缓存空间中的所有指纹N进行分段,每M个指纹组成一个指纹段,其中N为所有指纹的数量,M为任意自然数;(2)设置计数器i=1;(3)判断i是否大于N/M,如果大于则返回步骤(1),否则进入步骤(4);(4)从步骤(1)得到的多个指纹段中取出第i个指纹段,并获取第i个指纹段中指纹值最小的指纹作为代表指纹,并判断该代表指纹是否位于内存中的代表指纹索引表中,如果是,则进入步骤(5),否则进入步骤(8);(5)从代表指纹索引表中取出该代表指纹对应的指纹容器ID,并通过查找内存命中表来判断该指纹容器ID所对应的指纹容器是否存在于指纹容器缓存中,如果是则进入步骤(6),否则从磁盘中将该指纹容器ID对应的指纹容器读入到指纹容器缓存中,然后转入步骤(6);(6)将代表指纹所在指纹段中重复的指纹剔除,并将剔除后的指纹段中的每个指纹逐一与指纹容器ID所对应的指纹容器中的所有指纹进行匹配,如果匹配的结果为重复,则将该指纹标记为重复指纹,如果匹配结果为不重复,则将该指纹插入该指纹容器中;(7)设置计数器i=i+1,并返回步骤(3)。(8)在指纹容器缓存中构建一个新的指纹容器,将该代表指纹所在指纹段中重复的指纹剔除,将剔除后的指纹段中的所有指纹插入到新的指纹容器中,将代表指纹及新的指纹容器ID以键值对方式插入到代表指纹索引表中,并将新的指纹容器ID插入内存命中表中。(9)设置计数器i=i+1,并返回步骤(3)。2.根据权利要求1所述的重复数据检测方法,其特征在于,进一步包括在步骤(1)之前,在内存中设置空的指纹输入缓存空间、空的指纹容器缓存、空的内存命中表、以及代表指纹索引表的步骤,其中指纹输入缓存空间用于在内存中存储部分指纹,指纹容器缓存用于在内存中缓存部分指纹容器,内存命中表用于判断某个指纹容器是否已经缓存在内存中,代表指纹索引表用于将代表指纹存储在内存中,并为该代表指纹提供索引功能。3.根据权利要求1所述的重复数据检测方法,其特征在于,当N不能被M整除时,余下的少于M个指纹归为一个指纹段。4.根据权利要求2所述的重复数据检测方...

【专利技术属性】
技术研发人员:周可王桦张攀峰
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1