【技术实现步骤摘要】
本专利技术涉及。
技术介绍
现有技术都是通过在下发数据过程中,首先从文件系统或数据库等存储系统提取数据的hash指纹放入到主机内存或专用系统进行数据比对,通过比对结果来对重复的数据进行删除并标记索引,对于非重复数据则添加到hash指纹库中,然后再把处理后的数据下发到数据存储装置,从而达到有效清除重复数据的目的。 上述方法数据重删的效率低,为保证正常业务执行,在正常的业务处理流程中,上述技术是无法使用的,除非使用专用的数据重删处理器分担主机CPU压力,而且现有技术对主机内存有很高的要求,因此现有技术主要应用到备份等非正常业务流程中。
技术实现思路
本专利技术所要解决的技术问题是,针对上述现有技术的不足,提供。 为解决上述技术问题,本专利技术所采用的技术方案是:,包括以下步骤:1)随机从主机内存获取一段数据,计算所获取的数据的签名,遍历所有签名,依次计算两个签名的海明距离,将海明距离在3以内的签名作为高相似度数据,并统计每个高相似度数据的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,其中 100〈N〈5000 ;2 )再一次从主机内存获取一段数据,按照步骤1)方法抽取该段数据中前N个签名对应的数据,即待入库数据,将待入库数据与上述初始样本数据库中的数据进行对比,删除待入库数据中与所述初始样本数据库中数据相同的数据,比较余下的待入库数据的相似度计数与所述初始样本数据库中数据的相似度计数,删除相似度计数小于初始样本数据库中相似度计数的余下的待入库数据中的数据,得到准入库数据,按照相似度计数从大到小的 ...
【技术保护点】
一种数据重删方法,其特征在于,包括以下步骤:1)随机从主机内存获取一段数据,计算所获取的数据的签名,遍历所有签名,依次计算两个签名的海明距离,将海明距离在3以内的签名作为高相似度数据,并统计每个高相似度数据的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,其中100<N<5000;2)再一次从主机内存获取一段数据,按照步骤1)方法抽取该段数据中前N个签名对应的数据,即待入库数据,将待入库数据与上述初始样本数据库中的数据进行对比,删除待入库数据中与所述初始样本数据库中数据相同的数据,比较余下的待入库数据的相似度计数与所述初始样本数据库中数据的相似度计数,删除相似度计数小于初始样本数据库中相似度计数的余下的待入库数据中的数据,得到准入库数据,按照相似度计数从大到小的顺序将准入库数据保存到所述初始样本数据库中;3)重复上述步骤2),直到初始样本数据库中的样本数据个数=盘片容量/(1G~1M),即得到样本数据库,将所述样本数据库发送给存储装置;4)所述存储装置接收到主机请求后,将存储装置内的数据与上述样本数据库中的样本数据进行对比,若存储装置的数据与所述样 ...
【技术特征摘要】
1.一种数据重删方法,其特征在于,包括以下步骤: I)随机从主机内存获取一段数据,计算所获取的数据的签名,遍历所有签名,依次计算两个签名的海明距离,将海明距离在3以内的签名作为高相似度数据,并统计每个高相似度数据的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,其中 100〈N〈5000 ; 2)再一次从主机内存获取一段数据,按照步骤I)方法抽取该段数据中前N个签名对应的数据,即待入库数据,将待入库数据与上述初始样本数据库中的数据进行对比,删除待入库数据中与所述初始样本数据库中数据相同的数据,比较余下的待入库数据的相似度计数与所述初始样本数据库中...
【专利技术属性】
技术研发人员:吕辉,姜黎,马翼,
申请(专利权)人:湖南国科微电子有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。