The invention provides a method and device for data de-duplication based on content awareness, including an IO processing device running on a host computer and a data de-duplication device running on a storage controller. The data de-duplication device includes an analysis unit, an eigenvalue comparison unit and a data de-duplication execution unit. The stored data are divided into text, audio, image, non-sequential numerical data and sequential numerical data according to their contents. Different algorithms are used to calculate their eigenvalues according to their types. The eigenvalues obtained are combined with the initial IO writing requests to form new IO writing requests. According to the data types of the parsed IO writing requests, the eigenvalue comparison unit reads out the eigenvalues from the corresponding eigenvalue subtables and calculates the eigenvalues to be stored. The Hamming distance between the data eigenvalue and the read-out eigenvalue sends the judgment result to the data de-duplication execution unit for data de-duplication operation. The invention adopts a feature value calculation algorithm based on content perception and a data duplication judgment standard, thereby improving the success rate and efficiency of duplication removal.
【技术实现步骤摘要】
一种基于内容感知的数据去重方法与装置
本专利技术属于计算机网络数据存储
,具体涉及到一种网络数据的去重处理方法与装置。
技术介绍
随着计算机网络技术的进步以及移动互联网技术的发展,近十年来数据呈现高速增长,数据中心的负荷日益增大,终端用户众多带来的数据管理问题挑战数据中心的高效建设。由转载、引用带来的文本重复问题,内容分享带来的音频、图像以及视频文件重复问题,以及同一网络中位置类似的设备产生的数据等,都可能存在大量的重复。重复数据占用存储设备接口带宽和存储介质空间,浪费资源。采用技术手段识别出重复数据,并在保存之前做剔除处理,可以提高资源的有效利用。目前存储设备厂商采用的数据去重方法基本上都是基于散列(hash)的方法。这些设备厂商采用SHA-1、MD5之类的hash算法将进行备份的数据分割成块,并且为每个数据块生成一个散列值。如果新数据块的散列值与备份设备上存储的一个散列值匹配,表明该数据已经被备份,存储设备只需更新它的地址映射表,以说明在这个新位置(逻辑地址)也存在该数据。SHA-1、MD5之类的密码学加密方式,其设计目的是为了让整个散列分布尽可能地均匀,这导致源数据哪怕出现一位的轻微变化,都会出现完全不同的散列值。要达到数据去重,基于散列的方法要求两个比较数据完全相同。而我们知道,在一些文本信息中,如果只是在文末增加说明,或者调整文章结构,或者语句由主动式转被动式,仍认为这是同一份文本。声音文件也有类似问题。人耳听不出采用192kb/s和256kb/s编码率的同一首歌的区别,但它们的散列值完全不同。一张图片,如果对它进行简单的缩放,或者改变对比 ...
【技术保护点】
1.一种基于内容感知的数据去重方法,其特征在于,包括:对待存储数据按内容进行分类,类型包括文本、音频、图像、非时序数值数据与时序数值数据;对这些数据,按类型采用不同的特征值计算算法,计算其特征值;将计算得到的特征值与初始IO写请求组合成新的IO写请求,发送至存储控制器进行下一步的操作;接收来自主机的IO写请求,解析待存储数据的类型,分为文本、音频、图像、非时序数值型数据与时序数值型数据;按解析出的IO写请求数据类型,从相应的特征值子表读出特征值,计算待存储数据特征值与读出特征值的汉明距离;当待存储数据类型为文本、音频、图像数据时,若计算出的汉明距离小于参数化设置的值时,则判断为重复数据,否则判断为非重复数据;当待存储数据类型为非时序数值型数据,若计算出的汉明距离为0,则判断为重复数据,否则判断为非重复数据;若待存储数据为时序数值型数据,则不执行比对和去重操作;对判断结果进行数据去重操作,当判断为重复数据时,则不执行IO写请求操作,将该IO写请求的逻辑地址映射到已存储数据的物理地址,并更新地址映射表;当判断为非重复数据时,将该特征值写入该种类型数据的特征值子表,执行IO写请求操作,更新地 ...
【技术特征摘要】
1.一种基于内容感知的数据去重方法,其特征在于,包括:对待存储数据按内容进行分类,类型包括文本、音频、图像、非时序数值数据与时序数值数据;对这些数据,按类型采用不同的特征值计算算法,计算其特征值;将计算得到的特征值与初始IO写请求组合成新的IO写请求,发送至存储控制器进行下一步的操作;接收来自主机的IO写请求,解析待存储数据的类型,分为文本、音频、图像、非时序数值型数据与时序数值型数据;按解析出的IO写请求数据类型,从相应的特征值子表读出特征值,计算待存储数据特征值与读出特征值的汉明距离;当待存储数据类型为文本、音频、图像数据时,若计算出的汉明距离小于参数化设置的值时,则判断为重复数据,否则判断为非重复数据;当待存储数据类型为非时序数值型数据,若计算出的汉明距离为0,则判断为重复数据,否则判断为非重复数据;若待存储数据为时序数值型数据,则不执行比对和去重操作;对判断结果进行数据去重操作,当判断为重复数据时,则不执行IO写请求操作,将该IO写请求的逻辑地址映射到已存储数据的物理地址,并更新地址映射表;当判断为非重复数据时,将该特征值写入该种类型数据的特征值子表,执行IO写请求操作,更新地址映射表。2.根据权利要求1所述的一种基于内容感知的数据去重方法,其特征在于,包括:所述的对这些数据,按类型采用不同的特征值计算算法,计算其特征值,具体为对文本采用simhash算法,对音频采用声学指纹算法,对图像采用感知hash算法,对非时序数值数据采用hash算法,对时序数值数据不计算其特征值而采用透传方案。3.一种基于内容感知的数据去重装置,其特征在于,包括:一组运行在上位机的IO处理装置,运行在存储控制器的数据去重装置;所述运行在存储控制...
【专利技术属性】
技术研发人员:邱赐云,周正,吴佳,
申请(专利权)人:上海威固信息技术股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。