当前位置: 首页 > 专利查询>数据域公司专利>正文

利用了数据段的相似度的高效数据存储制造技术

技术编号:2912283 阅读:325 留言:0更新日期:2012-04-11 18:40
公开了利用数据段的相似度进行存储。确定新段与先前存储的段相似。所述先前存储的段包括来自输入数据流中的任何位置的先前存储的段。确定所述新段与所述先前存储的段之间的增量。至少部分地基于所述增量来存储所述新段的表示。

【技术实现步骤摘要】
【国外来华专利技术】专利技术背景一种高效地存储数据的方法是防止对于在备份之间保持不变的数据的冗余拷贝。这种高效的存储是通过把来自各数据源的数据流分成段(segment)并且把所述段以及所述段的标识符的索引存储在存储设备上来实现的。在后续的备份操作期间,再次对所述数据流进行分段,并且在所述索引中查找所述段以便确定某一数据段先前是否已被存储过。如果找到完全相同的段,则不再存储该数据段;否则就存储所述新的数据段和新的索引标识符。遗憾的是,随着将要备份的数据量的增加,所述段的数目(如果所述段的尺寸近似的话)以及所述索引条目的数目也会增加。所述段和索引条目的数目的增加会导致存取性能的降低:对于写入,必须把到来的段索引与所述索引中的所有条目进行比较;以及对于读取,必须从较大数目的段当中检索与某一文件相关联的段。如果增大所述段的尺寸,则会减少所述段的数目,从而所述索引条目的数目也会减少,性能也可以得到保持;然而,由于出现较长的完全相同的段的几率没有那么高,因此存储效率会降低。如果可以在不牺牲存储效率的情况下保本文档来自技高网...

【技术保护点】
一种利用数据段的相似度进行存储的方法,包括: 确定新段与先前存储的段相似,其中所述先前存储的段包括来自输入数据流中的任何位置的先前存储的段; 确定所述新段与所述先前存储的段之间的增量;以及 至少部分地基于所述增量来存储所述 新段的表示。

【技术特征摘要】
【国外来华专利技术】US 2006-4-11 11/402,6311、一种利用数据段的相似度进行存储的方法,包括:
确定新段与先前存储的段相似,其中所述先前存储的段包括来自输
入数据流中的任何位置的先前存储的段;
确定所述新段与所述先前存储的段之间的增量;以及
至少部分地基于所述增量来存储所述新段的表示。
2、如权利要求1所述的方法,其中,所述增量包括所述新段与所述
先前存储的段之间的差异。
3、如权利要求1所述的方法,其中,确定相似度包括:把所述新段
的概要特征集合与所述先前存储的段的概要特征集合进行比较。
4、如权利要求1所述的方法,还包括:如果新段与所述先前存储的
段不相似,则存储该新段。
5、如权利要求1所述的方法,其中,存储所述新段的所述表示包括:
存储所述增量以及所述先前存储的段的指示。
6、如权利要求1所述的方法,其中,如果所述增量大于预定阈值则
存储所述新段的所述表示包括:存储所述新段。
7、如权利要求1所述的方法,其中,存储所述新段的所述表示包括:
存储所述增量与第二增量的组合。
8、如权利要求1所述的方法,其中,存储所述新段的所述表示包括:
对所述新段进行本地压缩。
9、如权利要求1所述的方法,其中,存储所述新段的所述表示包括:
对所述增量进行本地压缩。
10、如权利要求1所述的方法,其中,对于所述新段计算标识符。
11、如权利要求1所述的方法,其中,对于所述新段计算标识符,
并且所述标识符包括指纹。
12、如权利要求1所述的方法,其中,对于所述新段计算标识符,
并且所述标识符包括顺序生成的数字。
13、如权利要求1所述的方法,其中,对于所述增量计算标识符。
14、如权利要求1所述的方法,其中...

【专利技术属性】
技术研发人员:K李MB朱U马赫什沃里Z杨
申请(专利权)人:数据域公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1