【技术实现步骤摘要】
一种面向数据去重技术的近似最优数据碎片块重写方法
本专利技术涉及数据存储和数据去重
,具体涉及一种面向数据去重技术的近似最优数据碎片块重写方法。
技术介绍
随着数据时代的到来,全世界的数据总量呈现爆炸式增长的趋势。IDC研究表明到2020年,全世界每年的数据增长量将从2009年的0.8ZB增长44倍到35ZB。随着移动设备和传感器等设备的增加更是使得数据的增长加剧,这些数据来源包括人类的基因、社交网络、金融分析、环境保护、能源勘探、电子游戏以及医疗卫生等越来越多的应用领域。这些数据不仅总量巨大,而且数据结构复杂多样,这给数据的存储和管理带来新的挑战,同时也使得数据管理的风险上升。如何有效的管理、组织和运维这些数据对一个企业甚至是个人都具有巨大的价值。数据去重技术作为一种新型的大规模冗余数据消除技术被广泛地应用于数据中心、存储系统和备份系统,该技术能够有效地降低存储成本。同时,数据去重技术也从二级存储向主存储延伸,不仅仅用于归档和备份系统,也用于虚拟机环境、内存管理和远程数据传输等场景下数据的管理。然而,数据去重 ...
【技术保护点】
1.一种面向数据去重技术的近似最优数据碎片块重写方法,将备份数据流划分为n个数据段,每个数据段引用若干个容器,每个容器存放1个以上的数据块,数据块分为碎片块和非碎片块,其特征在于,所述的重写方法包括以下步骤:/nS1、分配并初始化一块内存空间,其过程如下:/nS11、申请分配一块内存空间,将该内存空间划分为多个小内存空间,每个小内存空间被称为桶;/nS12、按照前后顺序依次为每个桶设置一个绑定值,绑定值由低到高;/nS2、初始化i=1,i=1,2,…,n,从前i个数据段所引用容器中选出最优的x个容器,并确定对于数据段i的最优阈值,过程如下:/nS21、计算数据段i所引用容器 ...
【技术特征摘要】
1.一种面向数据去重技术的近似最优数据碎片块重写方法,将备份数据流划分为n个数据段,每个数据段引用若干个容器,每个容器存放1个以上的数据块,数据块分为碎片块和非碎片块,其特征在于,所述的重写方法包括以下步骤:
S1、分配并初始化一块内存空间,其过程如下:
S11、申请分配一块内存空间,将该内存空间划分为多个小内存空间,每个小内存空间被称为桶;
S12、按照前后顺序依次为每个桶设置一个绑定值,绑定值由低到高;
S2、初始化i=1,i=1,2,…,n,从前i个数据段所引用容器中选出最优的x个容器,并确定对于数据段i的最优阈值,过程如下:
S21、计算数据段i所引用容器的容器引用率,其中容器引用率表示一个容器被一个数据段引用的次数或频率;
S22、根据匹配规则将数据段i所引用的容器放到对应的桶中,其中,匹配规则定义如下:假设按前后顺序有两个桶A和B,当一个容器的容器引用率小于或者等于桶B的绑定值且大于桶A的绑定值时,则判定容器和桶B是匹配的;
S23、从绑定值最低的桶开始遍历,累加每个桶中存放容器的个数,直到累加的容器个数等于x时停止遍历,所遍历的容器即为最优的x个容器,此时指向的桶的绑定值即为对于数据段i的最优阈值,对于数据段i所引用的容器,若容器引用率小于或等于该最优阈值,则为最优容器,否则,为次优容器;
S3、在数据段i所引用的容器中选出部分容器,并重写这些容器中存放的碎片块,过程如下:
S31、若采用最优重写策略,选出数据段i所引用容器中的最优容器,并重写所选容器中存放的碎片块;
S32、若采用激进重写策略,选出数据段i所引用容器中的最优容器后,再选出y个次优容器,并重写所选容器中存放的碎片块,其中y小于或者等于数据段i所引用的次优容器的个数;
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。