一种数据处理方法及存储设备技术

技术编号:14595862 阅读:342 留言:0更新日期:2017-02-09 00:27
本发明专利技术实施例提供了一种数据处理方案,在该数据处理方案中,存储设备存储有第一映射关系,第一映射关系包括第一特征值与特定格式数据的映射,存储设备计算第一数据块得到第一数据块的特征值,第一数据块的特征值为第一特征值;存储设备根据第一数据块的第一特征值查询第一映射关系确定第一映射关系中包含第一特征值,则第一数据块属于特定格式数据,存储设备不再对第一数据块进行重复数据删除操作。

Data processing method and storage device

The embodiment of the invention provides a data processing scheme, in the data processing scheme, a first storage device for storing the mapping relationship, the first mapping including the first eigenvalue mapping and the specific format of data storage devices, calculation of the first data block features a first data block value, characteristics of the first data block value is the first feature the value of the first storage device; query mapping determined including the first eigenvalue of the first mapping according to the first characteristic of the first data block, the first block of data to a specific format of data storage devices, no duplicate data delete operation on the first data block.

【技术实现步骤摘要】

本专利技术涉及数据存储
,尤其涉及一种数据处理方法及存储设备
技术介绍
重复数据删除(De-duplication),是数据存储
中非常热门的技术,通过删除数据中重复的数据,只保留一份唯一的数据,消除了冗余数据。这种技术可以很大程度上减少对物理存储空间的需求,从而满足日益增长的数据存储需求。现有技术中,如果确认某一个待进行重复数据删除的数据块的特征值在存储设备中已经存在,则表明存储设备中已经存储了该数据块,存储设备已经存储了该特征值与存储该数据块的存储地址的映射关系。在这种情况下,存储设备会更新对该存储地址的引用计数。当读取该待进行重复数据删除的数据块时,需要根据该待进行重复数据删除的数据块的特征值查询该特征值与存储该数据块的存储地址的映射关系,从该存储地址中读取该数据。因此,不可避免存在对存储地址进行的多次访问操作。
技术实现思路
第一方面,本专利技术实施例提供了一种数据处理方案,在该数据处理方案中,存储设备存储有第一映射关系,第一映射关系包括第一特征值与第一特征值对应的特定格式数据的映射,存储设备计算第一数据块得到第一数据块的特征值,第一数据块的特征值为第一特征值;存储设备根据第一数据块的第一特征值查询第一映射关系确定第一映射关系中包含第一特征值,则第一数据块属于特定格式数据,存储设备不再对第一数据块进行重复数据删除操作。其中,特征格式数据可以为特定长度的全0数据或全1数据,或者0和1数据的组合,也可以为重复次数(重复度)比较高的数据,其中重复次数可以通过引用计数来判断。特征值可以为使用Hash算法获得的数据块的指纹。当第一数据块为特定格式的数据时,存储设备不需要进行进一步重复数据删除操作,即不需要如下操作:查询到存储设备中已经存储了该第一数据块时,更新第一特征值对应的存储地址的引用计数,或者当存储设备中没有存储该第一数据块时,存储设备为该第一数据块分配存储地址,并将该第一数据块存储到存储地址,建立第一特征值与该存储地址的映射关系,减少了对存储地址的访问操作。更重要的,当访问第一数据块时,根据第一数据块的特征值查询第一映射关系可以直接得到第一数据块,不再需要根据第一特征值确定存储第一数据块的存储地址,再访问存储第一数据块的存储地址获得第一数据块,进一步减少了对存储地址的访问操作。可选的,存储设备存储有第二映射关系;其中,第二映射关系包含第二特征值与第一存储地址的映射;第一存储地址存储有第二特征值对应的数据;存储设备计算第二数据块得到第二数据块的特征值,第二数据块的特征值为第二特征值;存储设备根据第二数据块的第二特征值查询第一映射关系确定第一映射关系中不包含第二特征值;存储设备根据第二数据块的第二特征值查询第二映射关系确定第二映射关系中包含第二特征值;存储设备更新第一存储地址的引用计数。一方面,将特定格式数据控制在一定数据范围内,可以将存储设备存储的第一映射关系的大小控制在一定的范围,防止存储设备加载第一映射关系时占用过大的缓存;同时,可将不属于特定格数的数据进行按照现有重复数据删除流程进行处理,从而节省存储设备的存储空间。可选的,存储设备存储有第二映射关系;第二映射关系包含第二特征值与第一存储地址的映射;其中,第一存储地址存储有所述第二特征值对应的数据;存储设备计算第三数据块得到第三数据块的特征值,第三数据块的特征值为第三特征值;存储设备根据第三特征值查询第一映射关系确定第一映射关系中不包含第三特征值;存储设备根据第三特征值查询第二映射关系确定第二映射关系中不包含第三特征值;存储设备将第三数据块存储到第二存储地址;存储设备在第二映射关系中建立第三特征值与第二存储地址的映射,即第二映射关系中包括第三特征值与第二存储地址的映射。一方面,可以将存储设备存储的第一映射关系的大小控制在一定的范围,防止存储设备加载第一映射关系时占用过大的缓存,同时,可将不属于特定格数的数据进行按照现有重复数据删除流程进行处理,从而节省存储设备的存储空间。进一步的,存储设备更新第二存储地址的引用计数。可选的,存储设备划分数据段得到第一数据块;存储设备建立数据段与第一数据块的第一特征值的映射关系。当访问数据段时,根据数据段与第一数据块的第一特征值的映射关系,确定第一特征值,存储设备根据第一特征值查询第一映射关系即可获得第一数据块,不再需要访问存储设备中的存储地址,减少了对存储地址的访问操作。可选的,第二映射关系中包含第一特征值与第三存储地址的映射,其中,第三存储地址中存储有特征值为第一特征值的数据;当第三存储地址的引用计数大于阈值R时,存储设备在第一映射关系中建立第一特征值与特征值为第一特征值的数据的映射,即特征值为第一特征值的数据为第一特征值对应的特定格式数据,其中,R为大于0的整数。进一步的,存储设备删除第二映射关系中第一特征值与第三存储地址的映射以及第三存储地址中的数据或使用无效标识将第一特征值与第三存储地址的映射以及第三存储地址中的数据置为无效。进一步减少了对存储地址的访问操作。第二方面,相应地,本专利技术实施例还提供了一种存储设备,用于实现第一方面各种实现方案。其中,存储设备包括实现本专利技术实施例第一方面各种的实现方案的结构单元,或者,存储设备包括接口和处理器以分别执行本专利技术实施例第一方面各种的实现方案。相应地,本专利技术还提供了非易失性计算机可读存储介质和计算机程序产品,当本专利技术实施例提供的存储设备的存储器加载非易失性计算机可读存储介质和计算机程序产品中包含的计算机指令,存储设备的中央处理单元(CentralProcessingUnit,CPU)执行该计算机指令时,分别使存储设备执行本专利技术实施例第一方面的各种可能实现方案。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例提供的一种存储设备结构示意图;图2为本专利技术实施例提供的一种数据处理方法的流程图;图3为本专利技术实施例提供的一种数据段分块示意图;图4为本专利技术实施例提供的一种数据段的逻辑地址与数据块特征值映射关系示意图;图5为本专利技术实施例提供的一种存储设备结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述。如图1所示,存储设备包含中央处理单元(CentralProcessingUnit,CPU)101、存储器102和接口103,存储器102中存储计算机指令,CPU101执行存储器102中的计算机指令对存储系统进行管理及进行重复数据删除操作。另外,为节省CPU101的计算资源,现场可编程门阵列(FieldProgrammableGateArray,FPGA)或其他硬件也可以用于执行本专利技术实施例中CPU全部操作,或者,FPGA或其他硬件与CPU分别用于执行本专利技术实施例CPU的部分操作,以实现本专利技术实施例描述的技术方案。为方便描述,本专利技术实施例统一描述为控制器的处理器用于实现本专利技术实施例的技术方案。接口103与处理器进行通信,接口103具体可以为主机总线适配器(HostBusAdapter,HBA)卡,高速外围组件互联(PeripheralComponentInterconnectExpress,PCIE)接口卡等。在图2所示的本专利技术实施例中,存储设备存储本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,存储设备存储有第一映射关系,所述第一映射关系包括第一特征值与所述第一数据块对应的特定格式数据的映射,所述方法包括:所述存储设备计算第一数据块得到所述第一数据块的特征值,所述第一数据块的特征值为所述第一特征值;所述存储设备根据所述第一数据块对应的第一特征值查询所述第一映射关系确定所述第一映射关系中包含所述第一特征值,则所述第一数据块为所述特定格式数据,所述存储设备不再对所述第一数据块进行重复数据删除操作。

【技术特征摘要】
1.一种数据处理方法,其特征在于,存储设备存储有第一映射关系,所述第一映射关系包括第一特征值与所述第一数据块对应的特定格式数据的映射,所述方法包括:所述存储设备计算第一数据块得到所述第一数据块的特征值,所述第一数据块的特征值为所述第一特征值;所述存储设备根据所述第一数据块对应的第一特征值查询所述第一映射关系确定所述第一映射关系中包含所述第一特征值,则所述第一数据块为所述特定格式数据,所述存储设备不再对所述第一数据块进行重复数据删除操作。2.根据权利要求1所述的方法,其特征在于,所述存储设备存储有第二映射关系;所述第二映射关系包含第二特征值与第一存储地址的映射;其中,所述第一存储地址存储有所述第二特征值对应的数据;所述方法还包括:所述存储设备计算第二数据块得到所述第二数据块的特征值,所述第二数据块的特征值为所述第二特征值;所述存储设备根据所述第二数据块的第二特征值查询所述第一映射关系确定所述第一映射关系中不包含所述第二特征值;所述存储设备根据所述第二数据块的第二特征值查询所述第二映射关系确定所述第二映射关系中包含所述第二特征值;所述存储设备更新所述第一存储地址的引用计数。3.根据权利要求1所述的方法,其特征在于,所述存储设备存储有第二映射关系;所述第二映射关系包含第二特征值与第一存储地址的映射;其中,所述第一存储地址存储有所述第二特征值对应的数据;所述方法还包括:所述存储设备计算第三数据块得到所述第三数据块的特征值,所述第三数据块的特征值为第三特征值;所述存储设备根据所述第三特征值查询所述第一映射关系确定所述第一映射关系中不包含所述第三特征值;所述存储设备根据所述第三特征值查询所述第二映射关系确定所述第二映射关系中不包含所述第三特征值;所述存储设备将所述第三数据块存储到第二存储地址;所述存储设备在所述第二映射关系中建立所述第三特征值与所述第二存储地址的映射。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:所述存储设备更新所述第二存储地址的引用计数。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述存储设备划分数据段得到所述第一数据块;所述存储设备建立所述数据段与所述第一数据块的所述第一特征值的映射关系。6.一种存储设备,其特征在于,存储设备存储有第一映射关系,所述第一映射关系包括第一特征值与所述第一数据块的特定格式数据的映射,所述存储设备包括计算单元和确定单元;其中,所述计算单元用于计算第一数据块得到所述第一数据块的特征值,所述第一数据块的特征值为所述第一特征值;所述确定单元用于根据所述第一数据块对应的第一特征值查询所述第一映射关系确定所述第一映射关系中包含所述第一特征值,则所述第一数据块为所述特定格式数据,所述存储设备不再对所述第一数据块进行重复数据删除操作。7.根据权利要求6所述的存储设备,其特征在于,所述存储设备存储有第二映射关系;所述第二映射关系包含第二特征值与第一存储地址的映射;其中,所述第一存储地址存储有所述第二特征值对应的数据;所述存储设备还包括更新单元:所述计算单元还用于计算第二数据块得到所述第二数据块的特征值,所述第二数据块的特征值为所述第二特征值;所述确定单元还用于根据所述第二数据块的第二特征值查询所述第一映射关系确定所述第一映射关系中不包含所述第二特征值;所述确定单元还用于根据所述第二数据块的第二特征值查询所述第二映射关系确定所述第二映射关系中包...

【专利技术属性】
技术研发人员:袁冉胤游俊李伟
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1