【技术实现步骤摘要】
本专利技术涉及数据处理领域,具体涉及一种数据存储方法和系统。
技术介绍
随着数字信息化速度的加快,数据量和访问量爆炸性的增加,作为数据保护的数据的复制和备份正在面临着巨大的考验。由于数据归档的规范性等一系列问题,造成了有大量的重复数据存在于物理存储设备中,从而浪费了大量物理存储空间,许多企业不得不因此加大对存储硬件设备的投入,增加了许多不必要的开销。目前主流的数据远程复制方式有完全复制、差量复制和差分复制,这三种实施数据复制的三种策略中,并不能从本质上完全解决数据复制的性能和效率问题,因为不论是完全复制、差量复制或是差分复制,其复制的数据存在大量的冗余,许多数据被一而再再而三的重复复制,增加了数据复制的时间开销,同时也带来了在数据复制过程中的安全隐患。
技术实现思路
本专利技术要解决的技术问题是提供一种数据存储方法和系统,能够节省数据在物理存储实体上的空间资源,从而提高数据远程复制的效率和安全性。为了解决上述问题,本专利技术提供了一种数据存储方法,包括:将各存储的文件分割为预定大小的数据段;为分割成的各数据段生成唯一对应于该数据段的标识信息,所述标识信息用于携带所对 ...
【技术保护点】
一种数据存储方法,包括:将各存储的文件分割为预定大小的数据段;为分割成的各数据段生成唯一对应于该数据段的标识信息,所述标识信息用于携带所对应的数据段的属性信息;比较各数据段的内容,找出重复数据;将内容相同的两份或两份以上数据作为一组;对于各组重复数据,保留其中一份数据,并将该份数据的物理存储位置保存为该组中其他各份数据的冗余数据水印;如果一个数据段存在重复数据,则将该数据段中的重复数据用其冗余数据水印代替。
【技术特征摘要】
1.一种数据存储方法,包括:将各存储的文件分割为预定大小的数据段;为分割成的各数据段生成唯一对应于该数据段的标识信息,所述标识信息用于携带所对应的数据段的属性信息;比较各数据段的内容,找出重复数据;将内容相同的两份或两份以上数据作为一组;对于各组重复数据,保留其中一份数据,并将该份数据的物理存储位置保存为该组中其他各份数据的冗余数据水印;如果一个数据段存在重复数据,则将该数据段中的重复数据用其冗余数据水印代替。2.如权利要求1所述的方法,其特征在于:所述比较各数据段的内容,找出重复数据的步骤中是采用KMP算法进行比较,找到最大长度的重复数据。3.如权利要求1所述的方法,其特征在于:各数据段的唯一标识信息可以但不限于采用红黑树的形式进行存储。4.如权利要求1到3中任一项所述的方法,其特征在于,所述将数据段中的重复数据用其冗余数据水印代替的步骤包括:将该数据段中的重复数据删除;在该数据段的唯一标识信息中,增加所删除的重复数据在该数据段中的位置,以及所删除的重复数据的冗余数据水印。5.如权利要求1到3中任一项所述的方法,其特征在于,还包括:当访问数据时,如果所访问的数据段中包含冗余数据水印,则从该冗余数据水印所表示的物理存储位置访问该冗余数据水印替代的数据。6.一种数据存储系统,其特征在于,包括:分...
【专利技术属性】
技术研发人员:文中领,张雷,张宇,
申请(专利权)人:浪潮北京电子信息产业有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。