一种基于内容感知的数据去重方法与装置制造方法及图纸

技术编号:21184495 阅读:27 留言:0更新日期:2019-05-22 15:06
本发明专利技术提供了一种基于内容感知的数据去重方法与装置,包括运行在上位机的IO处理装置和运行在存储控制器的数据去重装置,数据去重装置包括解析单元、特征值比对单元和数据去重执行单元。对待存储数据按内容分为文本、音频、图像、非时序数值数据与时序数值数据,按类型采用不同的算法计算其特征值,将得到的特征值与初始IO写请求组合成新的IO写请求,按解析出的IO写请求数据类型,特征值比对单元从相应的特征值子表读出特征值,计算待存储数据特征值与读出特征值的汉明距离,将判断结果发送至数据去重执行单元进行数据去重操作。本发明专利技术采取基于内容感知的特征值计算算法和数据重复判断标准,提高了去重成功率和去重效率。

A Data Reduplication Method and Device Based on Content Awareness

The invention provides a method and device for data de-duplication based on content awareness, including an IO processing device running on a host computer and a data de-duplication device running on a storage controller. The data de-duplication device includes an analysis unit, an eigenvalue comparison unit and a data de-duplication execution unit. The stored data are divided into text, audio, image, non-sequential numerical data and sequential numerical data according to their contents. Different algorithms are used to calculate their eigenvalues according to their types. The eigenvalues obtained are combined with the initial IO writing requests to form new IO writing requests. According to the data types of the parsed IO writing requests, the eigenvalue comparison unit reads out the eigenvalues from the corresponding eigenvalue subtables and calculates the eigenvalues to be stored. The Hamming distance between the data eigenvalue and the read-out eigenvalue sends the judgment result to the data de-duplication execution unit for data de-duplication operation. The invention adopts a feature value calculation algorithm based on content perception and a data duplication judgment standard, thereby improving the success rate and efficiency of duplication removal.

【技术实现步骤摘要】
一种基于内容感知的数据去重方法与装置
本专利技术属于计算机网络数据存储
,具体涉及到一种网络数据的去重处理方法与装置。
技术介绍
随着计算机网络技术的进步以及移动互联网技术的发展,近十年来数据呈现高速增长,数据中心的负荷日益增大,终端用户众多带来的数据管理问题挑战数据中心的高效建设。由转载、引用带来的文本重复问题,内容分享带来的音频、图像以及视频文件重复问题,以及同一网络中位置类似的设备产生的数据等,都可能存在大量的重复。重复数据占用存储设备接口带宽和存储介质空间,浪费资源。采用技术手段识别出重复数据,并在保存之前做剔除处理,可以提高资源的有效利用。目前存储设备厂商采用的数据去重方法基本上都是基于散列(hash)的方法。这些设备厂商采用SHA-1、MD5之类的hash算法将进行备份的数据分割成块,并且为每个数据块生成一个散列值。如果新数据块的散列值与备份设备上存储的一个散列值匹配,表明该数据已经被备份,存储设备只需更新它的地址映射表,以说明在这个新位置(逻辑地址)也存在该数据。SHA-1、MD5之类的密码学加密方式,其设计目的是为了让整个散列分布尽可能地均匀,这导致源数据哪怕出现一位的轻微变化,都会出现完全不同的散列值。要达到数据去重,基于散列的方法要求两个比较数据完全相同。而我们知道,在一些文本信息中,如果只是在文末增加说明,或者调整文章结构,或者语句由主动式转被动式,仍认为这是同一份文本。声音文件也有类似问题。人耳听不出采用192kb/s和256kb/s编码率的同一首歌的区别,但它们的散列值完全不同。一张图片,如果对它进行简单的缩放,或者改变对比度,其计算出的散列也会完全不同。因此采用基于散列的数据去重方法,会导致去重成功率下降。
技术实现思路
针对现有技术的不足,本专利技术提出一种基于内容感知的数据去重方法与装置。本专利技术由一组运行在上位机的IO处理装置和运行在存储控制器的数据去重装置组成。上位机IO处理装置对待存储数据按内容进行分类,类型有文本、音频、图像、非时序数值数据与时序数值数据。对这些数据按类型采用不同的特征值计算算法计算其特征值。其中一种实施方案是,对文本采用simhash算法,对音频采用声学指纹算法,对图像采用感知hash算法,对非时序数值数据采用hash算法,对时序数值数据不计算其特征值而采用透传方案。还可以有其他的算法,关键特征是要对数据进行分类,并按其数据特征采用不同的算法。将计算得到的特征值与初始IO写请求组合成新的IO写请求,发送至存储控制器进行下一步的操作。运行在存储控制器内的数据去重装置由解析单元、特征值比对单元和数据去重执行单元组成。解析单元接收来自主机的IO写请求,解析待存储数据的类型,分为文本、音频、图像、非时序数值型数据与时序数值型数据。按解析出的IO写请求数据类型,特征值比对单元从相应的特征值子表读出特征值,计算待存储数据特征值与读出特征值的汉明距离。当待存储数据类型为文本、音频、图像数据时,若计算出的汉明距离小于某个预设的值(参数化设置的值)时,判断为重复数据,否则判断为非重复数据。当待存储数据类型为非时序数值型数据,若计算出的汉明距离为0,判断为重复数据,否则判断为非重复数据。若待存储数据为时序数值型数据,不执行比对和去重操作。所谓时序数值型数据是指基于时间的一系列数值数据。将判断结果发送至数据去重执行单元。当判断为重复数据,数据去重执行单元不执行IO写请求操作,将该IO写请求的逻辑地址映射到已存储数据的物理地址,并更新地址映射表;当判断为非重复数据,将该特征值写入该种类型数据的特征值子表,执行IO写请求操作,更新地址映射表。具体技术方案为:一种基于内容感知的数据去重方法,包括:对待存储数据按内容进行分类,类型包括文本、音频、图像、非时序数值数据与时序数值数据;对这些数据,按类型采用不同的特征值计算算法,计算其特征值;将计算得到的特征值与初始IO写请求组合成新的IO写请求,发送至存储控制器进行下一步的操作;接收来自主机的IO写请求,解析待存储数据的类型,分为文本、音频、图像、非时序数值型数据与时序数值型数据;按解析出的IO写请求数据类型,从相应的特征值子表读出特征值,计算待存储数据特征值与读出特征值的汉明距离;当待存储数据类型为文本、音频、图像数据时,若计算出的汉明距离小于某个预设的值(参数化设置的值)时,则判断为重复数据,否则判断为非重复数据;当待存储数据类型为非时序数值型数据,若计算出的汉明距离为0,则判断为重复数据,否则判断为非重复数据;若待存储数据为时序数值型数据,则不执行比对和去重操作;对判断结果进行数据去重操作,当判断为重复数据时,则不执行IO写请求操作,将该IO写请求的逻辑地址映射到已存储数据的物理地址,并更新地址映射表;当判断为非重复数据时,将该特征值写入该种类型数据的特征值子表,执行IO写请求操作,更新地址映射表。进一步,所述的对这些数据,按类型采用不同的特征值计算算法,计算其特征值,具体为对文本采用simhash算法,对音频采用声学指纹算法,对图像采用感知hash算法,对非时序数值数据采用hash算法,对时序数值数据不计算其特征值而采用透传方案。一种基于内容感知的数据去重装置,包括:一组运行在上位机的IO处理装置,运行在存储控制器的数据去重装置;所述运行在存储控制器内的数据去重装置包括解析单元,特征值比对单元,数据去重执行单元;所述上位机IO处理装置对待存储数据按内容进行分类,类型包括文本、音频、图像、非时序数值数据与时序数值数据;对这些数据,按类型采用不同的特征值计算算法,计算其特征值;将计算得到的特征值与初始IO写请求组合成新的IO写请求,发送至存储控制器进行下一步的操作;所述解析单元接收来自主机的IO写请求,解析待存储数据的类型,分为文本、音频、图像、非时序数值型数据与时序数值型数据;按解析出的IO写请求数据类型,所述特征值比对单元从相应的特征值子表读出特征值,计算待存储数据特征值与读出特征值的汉明距离,当待存储数据类型为文本、音频、图像数据时,若计算出的汉明距离小于某个预设的值(参数化设置的值)时,则判断为重复数据,否则判断为非重复数据;当待存储数据类型为非时序数值型数据,若计算出的汉明距离为0,则判断为重复数据,否则判断为非重复数据;若待存储数据为时序数值型数据,则不执行比对和去重操作;将判断结果发送至所述数据去重执行单元,当判断为重复数据时,则数据去重执行单元不执行IO写请求操作,将该IO写请求的逻辑地址映射到已存储数据的物理地址,并更新地址映射表;当判断为非重复数据时,则将该特征值写入该种类型数据的特征值子表,执行IO写请求操作,更新地址映射表。进一步,所述上位机IO处理装置对待存储数据按内容进行分类,对这些数据,按类型采用不同的特征值计算算法,计算其特征值,具体为对文本采用simhash算法,对音频采用声学指纹算法,对图像采用感知hash算法,对非时序数值数据采用hash算法,对时序数值数据不计算其特征值而采用透传方案。与现有技术相比,本专利技术采取基于内容感知的特征值计算算法和数据重复判断标准,对特征值空间进行聚类管理,特定类型的数据仅需在对应的子集内完成特征值比对。因此,本专利技术能提高去重成功率和去重效率。解决了数本文档来自技高网
...

【技术保护点】
1.一种基于内容感知的数据去重方法,其特征在于,包括:对待存储数据按内容进行分类,类型包括文本、音频、图像、非时序数值数据与时序数值数据;对这些数据,按类型采用不同的特征值计算算法,计算其特征值;将计算得到的特征值与初始IO写请求组合成新的IO写请求,发送至存储控制器进行下一步的操作;接收来自主机的IO写请求,解析待存储数据的类型,分为文本、音频、图像、非时序数值型数据与时序数值型数据;按解析出的IO写请求数据类型,从相应的特征值子表读出特征值,计算待存储数据特征值与读出特征值的汉明距离;当待存储数据类型为文本、音频、图像数据时,若计算出的汉明距离小于参数化设置的值时,则判断为重复数据,否则判断为非重复数据;当待存储数据类型为非时序数值型数据,若计算出的汉明距离为0,则判断为重复数据,否则判断为非重复数据;若待存储数据为时序数值型数据,则不执行比对和去重操作;对判断结果进行数据去重操作,当判断为重复数据时,则不执行IO写请求操作,将该IO写请求的逻辑地址映射到已存储数据的物理地址,并更新地址映射表;当判断为非重复数据时,将该特征值写入该种类型数据的特征值子表,执行IO写请求操作,更新地址映射表。...

【技术特征摘要】
1.一种基于内容感知的数据去重方法,其特征在于,包括:对待存储数据按内容进行分类,类型包括文本、音频、图像、非时序数值数据与时序数值数据;对这些数据,按类型采用不同的特征值计算算法,计算其特征值;将计算得到的特征值与初始IO写请求组合成新的IO写请求,发送至存储控制器进行下一步的操作;接收来自主机的IO写请求,解析待存储数据的类型,分为文本、音频、图像、非时序数值型数据与时序数值型数据;按解析出的IO写请求数据类型,从相应的特征值子表读出特征值,计算待存储数据特征值与读出特征值的汉明距离;当待存储数据类型为文本、音频、图像数据时,若计算出的汉明距离小于参数化设置的值时,则判断为重复数据,否则判断为非重复数据;当待存储数据类型为非时序数值型数据,若计算出的汉明距离为0,则判断为重复数据,否则判断为非重复数据;若待存储数据为时序数值型数据,则不执行比对和去重操作;对判断结果进行数据去重操作,当判断为重复数据时,则不执行IO写请求操作,将该IO写请求的逻辑地址映射到已存储数据的物理地址,并更新地址映射表;当判断为非重复数据时,将该特征值写入该种类型数据的特征值子表,执行IO写请求操作,更新地址映射表。2.根据权利要求1所述的一种基于内容感知的数据去重方法,其特征在于,包括:所述的对这些数据,按类型采用不同的特征值计算算法,计算其特征值,具体为对文本采用simhash算法,对音频采用声学指纹算法,对图像采用感知hash算法,对非时序数值数据采用hash算法,对时序数值数据不计算其特征值而采用透传方案。3.一种基于内容感知的数据去重装置,其特征在于,包括:一组运行在上位机的IO处理装置,运行在存储控制器的数据去重装置;所述运行在存储控制...

【专利技术属性】
技术研发人员:邱赐云周正吴佳
申请(专利权)人:上海威固信息技术股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1