一种数据重删方法技术

技术编号：11103695 阅读：112 留言：0更新日期：2015-03-04 15:55

本发明专利技术公开了一种数据重删方法，把数据对比规模局限在每个存储装置内部，减少了数据比对规模，同时让每个存储装置并发对比，提高了对比效率，减少了对主机资源的依赖。由各个存储装置根据业务压力或主机要求触发相应的数据对比操作，并能在正常的业务流程中使用，不局限于特殊的备份等业务场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
现有技术都是通过在下发数据过程中，首先从文件系统或数据库等存储系统提取数据的hash指纹放入到主机内存或专用系统进行数据比对，通过比对结果来对重复的数据进行删除并标记索引，对于非重复数据则添加到hash指纹库中，然后再把处理后的数据下发到数据存储装置，从而达到有效清除重复数据的目的。上述方法数据重删的效率低，为保证正常业务执行，在正常的业务处理流程中，上述技术是无法使用的，除非使用专用的数据重删处理器分担主机CPU压力，而且现有技术对主机内存有很高的要求，因此现有技术主要应用到备份等非正常业务流程中。
技术实现思路
本专利技术所要解决的技术问题是，针对上述现有技术的不足，提供。为解决上述技术问题，本专利技术所采用的技术方案是:，包括以下步骤:1)随机从主机内存获取一段数据，计算所获取的数据的签名，遍历所有签名，依次计算两个签名的海明距离，将海明距离在3以内的签名作为高相似度数据，并统计每个高相似度数据的相似度计数，将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中，其中 100〈N〈5...

【技术保护点】
一种数据重删方法，其特征在于，包括以下步骤：1）随机从主机内存获取一段数据，计算所获取的数据的签名，遍历所有签名，依次计算两个签名的海明距离，将海明距离在3以内的签名作为高相似度数据，并统计每个高相似度数据的相似度计数，将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中，其中100<N<5000；2）再一次从主机内存获取一段数据，按照步骤1）方法抽取该段数据中前N个签名对应的数据，即待入库数据，将待入库数据与上述初始样本数据库中的数据进行对比，删除待入库数据中与所述初始样本数据库中数据相同的数据，比较余下的待入库数据的相似度计数与所述初始样本数据库中数据的相似度计数，删除...

【技术特征摘要】
1.一种数据重删方法，其特征在于，包括以下步骤: I)随机从主机内存获取一段数据，计算所获取的数据的签名，遍历所有签名，依次计算两个签名的海明距离，将海明距离在3以内的签名作为高相似度数据，并统计每个高相似度数据的相似度计数，将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中，其中 100〈N〈5000 ； 2)再一次从主机内存获取一段数据，按照步骤I)方法抽取该段数据中前N个签名对应的数据，即待入库数据，将待入库数据与上述初始样本数据库中的数据进行对比，删除待入库数据中与所述初始样本数据库中数据相同的数据，比较余下的待入库数据的相似度计数与所述初始样本数据库中...

【专利技术属性】
技术研发人员：吕辉，姜黎，马翼，
申请(专利权)人：湖南国科微电子有限公司，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人