块级虚拟化存储设备上实现重复数据删除的方法及系统技术方案

技术编号:6795018 阅读:370 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种块级虚拟化存储设备上实现重复数据删除的方法及系统,属于数据存储技术领域。所述方法包括:删除指定虚拟LBA地址空间所对应的实际物理数据中的重复数据,获得物理数据去重后的数据段;建立虚拟LBA地址空间与物理数据去重后的数据段的对应关系;根据对应关系和数据段的元数据信息,获取外部数据读写请求指向的虚拟LBA地址空间对应的实际物理数据的存放位置信息,完成I/O重定向。本发明专利技术还提供了一种块级虚拟化存储设备上实现重复数据删除的系统。本发明专利技术可以跨主机和存储设备删除重复数据,实现更大范围的重复数据删除。

【技术实现步骤摘要】

本 专利技术涉及数据存储
,特别涉及一种块级虚拟化存储设备上实现重复数据删除的方法及系统
技术介绍
在全球数据量平均每18 24个月便翻一倍和迫于法律要求企业数据保存期大幅增加的背景下,重复数据删除技术具有很重要的意义。该项技术是企业降低存储开销,进而降低IT开销,保持竞争力的重要手段之一。传统块级存储设备上的重复数据删除应用技术已经很成熟,且已进行大规模商用。然而随着存储虚拟化技术的引入,存储系统的整体架构有了很大的变化,这种变化主要表现在虚拟化存储设备系统架构在传统的存储体系结构中增加了一层虚拟化层, 形成了具有主机层、虚拟化层和物理存储设备层(如JB0D、磁盘阵列等)的三层架构。主机层和物理存储设备层与传统的存储系统完全一致,虚拟化层是一个软件层(或者是嵌入硬件内的软件功能模块)。在虚拟化层内置的软件将底端物理存储设备层中的同构或异构物理存储设备虚拟化成一个统一的存储设备池,通过构建物理LUN(Logical Unit Number, 逻辑单元号)与虚拟LUN之间的对应关系,将虚拟LUN提供给前端主机挂载使用,消除了异构存储设备之间的差异,可以以统一界面管理所有存储资源,大大简化了存储管理和使用的成本;加之其所提供的精简配置(thin provisioning)、在线数据迁移(non-disruptive data migration)等功能,极大地提高了存储设备的使用效率。随着存储虚拟化技术的使用深入,传统的重复数据删除解决方案在实施过程中也暴露了不足,具体表现在以下几个方面1、在主机层实现重复数据删除功能,要求用户在每台连接虚拟化存储设备的主机 (host)上部署重复数据删除软件,进而对该主机上的重复数据进行删除。但是这种方法存在如下局限性①重复数据删除范围仅限于每一个安装重复数据删除软件的主机及其所管理的数据,不能实现跨主机重复数据的删除;②在每台主机上都需要安装重复数据删除软件,由该软件执行的重复数据的指纹计算和比较需要消耗很多资源,会影响主机的性能。2、在物理存储设备层实现重复数据删除功能,要求以存储虚拟化层为媒介,其所连接的全部或者部分存储设备自身需具有重复数据删除功能。但是这种方法存在如下局限性①重复数据删除范围往往仅局限于某一特定存储设备内,而不能实现全数据范围的重复数据删除,影响整体重复数据删除的比例和效果;②异构存储设备之间的数据迁移需借助另外一个独立主机,将数据先还原后再迁移,影响数据迁移的性能;③不同的具有重复数据删除的存储设备所使用的元数据管理机制和策略不同,不易实现整合异构存储资源的统一管理。
技术实现思路
为了克服传统方法在虚拟化存储设备上实现重复数据删除功能方面所存在的局限性,本专利技术提出了一种块级虚拟化存储设备上的虚拟化层(非主机层和物理存储设备层)实现重复数据删除的方法,所述方法包括 删除指定虚拟LBA地址空间所对应的实际物理数据中的重复数据,获得所述物理数据去重后的数据段;建立所述虚拟LBA地址空间与所述物理数据去重后的数据段的对应关系;根据所述对应关系和数据段的元数据信息,获取外部数据读写请求指向的虚拟 LBA地址空间对应的实际物理数据的存放位置信息,完成I/O重定向。在所述删除指定虚拟LBA地址空间所对应的实际物理数据中的重复数据的步骤之前还包括设置重复数据删除策略及重复数据删除最小数据操作单元。所述删除指定虚拟LBA地址空间所对应的实际物理数据中的重复数据的步骤具体包括根据所述重复数据删除最小数据操作单元,从虚拟LBA地址空间对应的实际物理数据中提取用于重复数据删除的指定长度数据;根据所述重复数据删除策略,将所述指定长度数据按照所述重复数据删除最小数据操作单元,分割成指定大小的数据段;计算所述指定大小的数据段的数据指纹,并与数据指纹库中存储的数据指纹进行比较,根据数据指纹相同的比较结果,删除实际物理数据中的重复数据。所述获得所述物理数据去重后的数据段的步骤还包括更新所述物理数据去重后的数据段的元数据。所述重复数据删除最小数据操作单元为块的整数倍、比特位的整数倍或字节的整数倍。所述块级虚拟化存储设备的结构为带内或者带外体系架构。本专利技术提供了一种块级虚拟化存储设备上实现重复数据删除的系统,所述系统包括虚拟LUN设备,用于提供给前端主机挂载和使用;重复数据删除模块,用于删除指定虚拟LBA地址空间所对应的实际物理数据中的重复数据,获得去重后的数据段;全局元数据管理模块,用于建立所述虚拟LBA地址空间与所述去重后的数据段的对应关系,管理和更新全局元数据池设备中的元数据,以及根据接收到的虚拟LBA地址空间、所述对应关系和去重后的数据段的元数据信息,获取所述虚拟LBA地址空间对应的实际物理数据的存放位置信息,并发送所述存放位置信息;全局元数据池设备,用于存储所述全局元数据管理模块建立的对应关系信息及所述重复数据删除模块获得的去重后数据段的元数据信息;存储虚拟化模块,用于将外部数据读写I/O请求的虚拟LBA地址空间发送给所述全局元数据管理模块,以及接收所述全局元数据管理模块发送的所述虚拟LBA地址空间对应的实际物理数据的存放位置信息,完成I/O重定向;物理LUN设备,用于存放实际物理数据。所述重复数据删除模块包括设置单元,用于设置重复数据删除策略及重复数据删除最小数据操作单元;获取单元,用于获取指定虚拟LBA地址空间对应的实际物理数据存放位置信息;提取单元,用于根据从所述获取单元获取的实际物理数据存放位置信息,按照所述设置单元设置的重复数据删除最小数据操作单元,从所述物理LUN设备中提取用于重复数据删除的指定长度数据;分割单元, 用于根据所述设置单元设置的重复数据删除策略,将所述提取单元提取出的指定长度数据,按照所述设置单元设置的重复数据删除最小数据操作单元,分割成指定大小的数据段;数据指纹库单元,用于存储数据指纹;重复数据删除单元,用于计算所述分割单元分割的指定大小的数据段的数据指纹,并与所述数据指纹库单元存储的数据指纹进行比较,发送比较结果;元数据管理及更新单元,用于接收所述比较结果,并在所述比较结果为数据指纹相同时,将元数据更新的内容和请求发送给所述全局元数据管理模块。所述重复数据删除最小数据操作单元为块的整数倍、比特位的整数倍或字节的整数倍。本专利技术还提供了一种块级虚拟化存储设备上实现重复数据删除的系统,所述系统包括虚拟LUN设备,用于提供给前端主机挂载和使用;存储虚拟化元数据池设备,用于存储虚拟LBA地址空间对应的元数据信息;重复数据删除元数据池设备,用于存储重复数据删除模块去重后的数据段的元数据信息;重复数据删除模块,用于删除指定虚拟LBA地址空间所对应的实际物理数据中的重复数据,获得去重后的数据段,以及更新所述重复数据删除元数据池设备中的元数据信息;全局元数据管理模块,用于建立所述虚拟LBA地址空间与所述去重后的数据段的对应关系,以及同步协调存储虚拟化模块和重复数据删除模块的元数据的更新及交互;存储虚拟化模块,用于根据所述全局元数据管理模块建立的对应关系和所述重复数据删除模块去重后的数据段的元数据信息,获取外部数据读写请求指向的虚拟LBA地址空间对应的实际物理数据的存放位置信息,完成I/O重定向,以及更新所述存储虚拟化元数据池设备中的元数据信本文档来自技高网
...

【技术保护点】
1.一种块级虚拟化存储设备上实现重复数据删除的方法,其特征在于,所述方法包括:删除指定虚拟LBA地址空间所对应的实际物理数据中的重复数据,获得所述物理数据去重后的数据段;建立所述虚拟LBA地址空间与所述物理数据去重后的数据段的对应关系;根据所述对应关系和数据段的元数据信息,获取外部数据读写请求指向的虚拟LBA地址空间对应的实际物理数据的存放位置信息,完成I/O重定向。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘慧
申请(专利权)人:北京卓微天成科技咨询有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1