一种数据重删方法技术

技术编号:11103695 阅读:109 留言:0更新日期:2015-03-04 15:55
本发明专利技术公开了一种数据重删方法,把数据对比规模局限在每个存储装置内部,减少了数据比对规模,同时让每个存储装置并发对比,提高了对比效率,减少了对主机资源的依赖。由各个存储装置根据业务压力或主机要求触发相应的数据对比操作,并能在正常的业务流程中使用,不局限于特殊的备份等业务场景。

【技术实现步骤摘要】

本专利技术涉及。
技术介绍
现有技术都是通过在下发数据过程中,首先从文件系统或数据库等存储系统提取数据的hash指纹放入到主机内存或专用系统进行数据比对,通过比对结果来对重复的数据进行删除并标记索引,对于非重复数据则添加到hash指纹库中,然后再把处理后的数据下发到数据存储装置,从而达到有效清除重复数据的目的。 上述方法数据重删的效率低,为保证正常业务执行,在正常的业务处理流程中,上述技术是无法使用的,除非使用专用的数据重删处理器分担主机CPU压力,而且现有技术对主机内存有很高的要求,因此现有技术主要应用到备份等非正常业务流程中。
技术实现思路
本专利技术所要解决的技术问题是,针对上述现有技术的不足,提供。 为解决上述技术问题,本专利技术所采用的技术方案是:,包括以下步骤:1)随机从主机内存获取一段数据,计算所获取的数据的签名,遍历所有签名,依次计算两个签名的海明距离,将海明距离在3以内的签名作为高相似度数据,并统计每个高相似度数据的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,其中 100〈N〈5000 ;2 )再一次从主机内存获取一段数据,按照步骤1)方法抽取该段数据中前N个签名对应的数据,即待入库数据,将待入库数据与上述初始样本数据库中的数据进行对比,删除待入库数据中与所述初始样本数据库中数据相同的数据,比较余下的待入库数据的相似度计数与所述初始样本数据库中数据的相似度计数,删除相似度计数小于初始样本数据库中相似度计数的余下的待入库数据中的数据,得到准入库数据,按照相似度计数从大到小的顺序将准入库数据保存到所述初始样本数据库中;3)重复上述步骤2),直到初始样本数据库中的样本数据个数=盘片容量/(1G?1M),即得到样本数据库,将所述样本数据库发送给存储装置;4)所述存储装置接收到主机请求后,将存储装置内的数据与上述样本数据库中的样本数据进行对比,若存储装置的数据与所述样本数据库中的样本数据有重复,则标记主机逻辑地址映射到存储装置的物理地址的地址映射表,修改所述地址映射表地址为第一个重复数据块的地址,并把映射结果返回给主机。 与现有技术相比,本专利技术所具有的有益效果为:本专利技术把数据对比规模局限在每个存储装置内部,减小了数据比对规模,同时让每个存储装置并发对比,提高了对比效率,减少了对主机资源的依赖。由各个存储装置根据业务压力或主机要求触发相应的数据对比操作,并能在正常的业务流程中使用,不局限于特殊的备份等业务场景。 【附图说明】 图1为本专利技术一实施例方法原理图。 【具体实施方式】 如下以存储装置为存储阵列,主机为服务器为例说明该技术方案具体实施过程:1)服务器在下发业务数据过程中,首先在服务器上按照本专利技术的步骤1、步骤2、步骤3建立样本数据库;2)服务器与存储阵列通过标准协议(如SCSI/SATA/SAS/FC)的自定义厂商命令或其他数据命令把样本数据库中数据下发给各个阵列。 3)每个存储阵列收到服务器的对比数据请求后,把接收到的数据与阵列存储的数据进行对比等处理。即按照本专利技术的步骤4进行处理。 经过上述3步的具体实施后,每个存储阵列的重复数据会同时进行处理并删除,而且并不影响服务器与阵列之间的正常业务数据处理。该方案同样适用于存储装置为硬盘,主机为阵列或其他发起业务的设备。 如图1所示,本专利技术方法如下:首先主机下发数据到系统内存,利用SimHash算法计算内存数据样本特征值并入库保存,数据样本特征值计算方法具体实现如下:数据样本特征值计算方法:通过随机从内存获取一段数据,然后利用SimHash算法对缓存中所有数据计算签名,遍历所有签名,依次计算两个签名的海明距离(即两个签名二进制异或后I的个数),将海明距离在3以内的签名作为高相似度数据(该海明距离误判率比较低,海明距离越小,数据相似度越高),并统计每个高相似度数据的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,考虑数据库容量及数据对比效率,其中100〈N〈5000,N随盘片容量递增而递增;对于每个签名,初始样本重复率计数为O并依据样本重复率和相似度计数建立索引,从而作为样本数据库,当新样本入库前应当先与库中已有签名计算海明距离后按相似度计数排名后再入库。 SimHash算法描述如下:该算法参考文献: Moses S.Charikar 《Similarity estimat1n techniques from roundingalgorithms)).arist g1nis, p1ter indyk, rajeev motwani 《Similarity Search in HighDimens1ns via Hashing》输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重。输出是一个C位的二进制签名S。 I)初始化一个C维向量Q为0,C位的二进制签名S为O。 2)对向量V中的每一个特征,使用传统的Hash算法计算出一个C位的散列值H。对 l〈=i〈=C,如果H的第i位为I,则Q的第i个元素加上该特征的权重; 否则,Q的第i个元素减去该特征的权重。 3)如果Q的第i个元素大于0,则S的第i位为1 ;否则为0 ;4)返回签名S。 然后在主机业务压力不大的情况下,从样本数据库中提取重复率最高的前N个数据样本(样本数据个数=盘片容量/ (lG^lM)),并通过自定义命令下发给存储装置。。 接着存储装置接收到主机请求后,启动内部数据对比,对于重复数据需要修改地址映射值模块,把该表项置为第一个重复的映射表中地址值,从而释放对应的物理空间,并把映射及对比结果返回给主机,主机接收并保存存储装置的对比及映射结果。本文档来自技高网...

【技术保护点】
一种数据重删方法,其特征在于,包括以下步骤:1)随机从主机内存获取一段数据,计算所获取的数据的签名,遍历所有签名,依次计算两个签名的海明距离,将海明距离在3以内的签名作为高相似度数据,并统计每个高相似度数据的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,其中100<N<5000;2)再一次从主机内存获取一段数据,按照步骤1)方法抽取该段数据中前N个签名对应的数据,即待入库数据,将待入库数据与上述初始样本数据库中的数据进行对比,删除待入库数据中与所述初始样本数据库中数据相同的数据,比较余下的待入库数据的相似度计数与所述初始样本数据库中数据的相似度计数,删除相似度计数小于初始样本数据库中相似度计数的余下的待入库数据中的数据,得到准入库数据,按照相似度计数从大到小的顺序将准入库数据保存到所述初始样本数据库中;3)重复上述步骤2),直到初始样本数据库中的样本数据个数=盘片容量/(1G~1M),即得到样本数据库,将所述样本数据库发送给存储装置;4)所述存储装置接收到主机请求后,将存储装置内的数据与上述样本数据库中的样本数据进行对比,若存储装置的数据与所述样本数据库中的样本数据有重复,则标记主机逻辑地址映射到存储装置的物理地址的地址映射表,修改所述地址映射表地址为第一个重复数据块的地址,并把映射结果返回给主机。...

【技术特征摘要】
1.一种数据重删方法,其特征在于,包括以下步骤: I)随机从主机内存获取一段数据,计算所获取的数据的签名,遍历所有签名,依次计算两个签名的海明距离,将海明距离在3以内的签名作为高相似度数据,并统计每个高相似度数据的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,其中 100〈N〈5000 ; 2)再一次从主机内存获取一段数据,按照步骤I)方法抽取该段数据中前N个签名对应的数据,即待入库数据,将待入库数据与上述初始样本数据库中的数据进行对比,删除待入库数据中与所述初始样本数据库中数据相同的数据,比较余下的待入库数据的相似度计数与所述初始样本数据库中...

【专利技术属性】
技术研发人员:吕辉姜黎马翼
申请(专利权)人:湖南国科微电子有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1