当前位置: 首页 > 专利查询>EMC公司专利>正文

利用了数据段的相似度的高效数据存储制造技术

技术编号:8489818 阅读:170 留言:0更新日期:2013-03-28 11:36
本发明专利技术利用了数据段的相似度的高效数据存储,其公开了利用数据段的相似度进行存储。确定新段与先前存储的段相似。所述先前存储的段包括来自输入数据流中的任何位置的先前存储的段。确定所述新段与所述先前存储的段之间的增量。至少部分地基于所述增量来存储所述新段的表示。

【技术实现步骤摘要】
利用了数据段的相似度的高效数据存储
技术介绍
一种高效地存储数据的方法是防止对于在备份之间保持不变的数据的冗余拷贝。这种高效的存储是通过把来自各数据源的数据流分成段(segment)并且把所述段以及所述段的标识符的索引存储在存储设备上来实现的。在后续的备份操作期间,再次对所述数据流进行分段,并且在所述索引中查找所述段以便确定某一数据段先前是否已被存储过。如果找到完全相同的段,则不再存储该数据段;否则就存储所述新的数据段和新的索引标识符。遗憾的是,随着将要备份的数据量的增加,所述段的数目(如果所述段的尺寸近似的话)以及所述索引条目的数目也会增加。所述段和索引条目的数目的增加会导致存取性能的降低对于写入,必须把到来的段索引与所述索引中的所有条目进行比较;以及对于读取,必须从较大数目的段当中检索与某一文件相关联的段。如果增大所述段的尺寸,则会减少所述段的数目,从而所述索引条目的数目也会减少,性能也可以得到保持;然而,由于出现较长的完全相同的段的几率没有那么高,因此存储效率会降低。如果可以在不牺牲存储效率的情况下保持存取性能,则将是有益的。附图简述在下面的详细描述和附图中公开了本专利技术的各种实施本文档来自技高网...

【技术保护点】
一种利用数据段的相似度进行存储的系统,包括:用于确定新段是否相似于先前存储的段的部件,其中相似度包括第一段与第二段之间的逐字节相似性的度量,其中所述先前存储的段包括多个在先存储的段中的段,所述多个在先存储的段通过使用锚定将输入数据流打破为段而生成,其中所述锚定从所述输入数据流生成可变尺寸的依赖于内容但是独立于地址的段;用于在所述新段相似于所述先前存储的段时确定所述新段与所述先前存储的段之间的差异的部件;及用于在所述新段相似于所述先前存储的段时至少部分基于所述差异和至少部分基于基础而存储所述新段的表示的部件。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:K李MB朱U马赫什沃里Z杨
申请(专利权)人:EMC公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1