重复数据删除的装置和方法制造方法及图纸

技术编号:13630567 阅读:79 留言:0更新日期:2016-09-02 10:38
描述了一种用于重复数据删除的装置和方法。所述装置包括用于接收数据块的接口以及耦合至所述接口的重复数据删除引擎,所述重复数据删除引擎用于基于使用从所述数据块中计算所得的多个值查询索引对所述数据块进行重复数据删除,以及将多个新条目插入至所述索引中,每个条目对应于所述多个值中的一个值,其中为了将所述多个新条目插入至所述索引中,所述重复数据删除引擎还用于:为每个新条目确定所述索引中对应于相同值的条目数量;如果所述条目数量超过阈值,将所述条目中的一个条目替换为所述新条目。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种重复数据删除的装置和方法,尤其涉及用于重复数据删除的索引的更新。
技术介绍
重复数据删除是一种用于删除重复数据的相同副本的数据压缩技术,其可以在多种处理可能重复数据的场景中应用,例如数据存储、备份过程、数据传输和其它场景。重复数据删除通常用于通过将当前处理的数据替换为先前处理的相同数据的引用来降低数据大小。例如,在数据存储中,部分数据或字节格式被识别并存储。随着分析继续进行,其它部分数据与存储的副本比较,无论何时出现匹配,多余数据可替换为对已经存储数据的引用。为了执行重复数据删除,通常会使用索引,索引包括已经存储数据的特征和引用。由于每次对新数据进行重复数据删除时必须查询索引,所以索引的简单实施和维护会明显放缓处理。例如,如果索引变得过大,则无法在本地存储器或缓存中维护索引并且至少部分索引必须存储在较大但速度较慢的存储器中并从该存储器中获取,这种现象也称作磁盘查找瓶颈。因此,简单的重复数据删除方法通常具有过多资源和吞吐量要求,所以这些方法通常无法在终端用户产品中实现。其它重复数据删除方法试图降低索引大小。然而,由于该索引不能保存足够的数据来表示先前存储的数据,所以这些方法的重复数据删除率通
常较低,从而导致数据的潜在重复存储。
技术实现思路
鉴于上述情况,鉴于资源利用率和重复数据删除率两方面,本专利技术的一个目的是提供一种快速高效的重复数据删除方法。前述目的和其它目的可以通过独立权利要求的特征来实现。其它实现方式在从属权利要求、具体说明和附图中显而易见。根据本专利技术的第一方面,提供了一种装置,所述装置包括用于接收数据块的接口。所述装置还包括耦合至所述接口的重复数据删除引擎,所述重复数据删除引擎用于基于使用从所述数据块中计算所得的多个值查询索引对所述数据块进行重复数据删除,以及将多个新条目插入至所述索引中,每个条目对应于所述多个值中的一个值,其中为了将所述多个新条目插入至所述索引中,所述重复数据删除引擎还用于:为每个新条目确定所述索引中对应于相同值的条目数量;如果所述条目数量超过阈值,将所述条目中的一个条目替换为所述新条目。所述重复数据删除基于索引查询,其中所述索引可以随着从表征所述数据块的所述多个值中获得的多个新条目而更新。所述索引的每个条目可以包括键和值,其中所述条目的所述键可以对应于所述多个值中的一个值并且所述条目的所述值可以对应所述数据块。因此,所述索引可随着条目而更新,这些条目均可对应所述数据块或者至少部分所述数据块以实现相对于所述数据块进行后续重复数据删除。所述索引可以存储对应于相同值的若干条目。这些条目可以对应不同的数据块或者至少不同部分的数据块,这些索引可以用于在后续重复数据删除中确定给定值的若干候选数据块。所述索引可以存储K个对应相同值
的条目。例如,无论所述数据之间或者条目所表示的数据版本之间的相似性如何,具有相同值的条目的最新的K个副本可被保留。这允许从最多向后K个版本中找到先前处理的数据。由于所述数据块可以相对于最合适的数据块进行重复数据删除由于所述数据块可以根据最合适的数据块进行重复数据删除,这将有利地进行导致更为有效的重复数据删除。然而,由于对应于相同值的条目的数量受到阈值的限制,所以索引大小可以被直接控制。这有利地实现了诸如本地缓存冲之类的大小有限的存储器中索引的有效处理和存储。具体而言,可以通过设置合适的阈值直接控制索引大小并且索引大小可以适于所述装置的可用资源和当前要求,甚至在所述装置的运行期间也可以适于这些要求。因此,所述索引的基于阈值的配置避免了在潜在速度缓慢的存储设备中加载并存储大量索引,从而降低了磁盘查找瓶颈,同时实现了对大量先前处理的数据的查找以找到进行重复数据删除的合适命中。此外,索引更新的实现不需要所述索引的详细分析和新条目的复杂处理以保持所述索引足够小而驻留在本地存储器中。所述重复数据删除引擎可在硬件中作为软件或硬件和软件的组合来实现。具体而言,所述重复数据删除引擎可以实现为专用处理模块或专用处理器,其可用于根据本专利技术的各个方面和实现方式执行重复数据删除方法。除非另有说明,在本文中使用的术语“或”被理解为包含性连词或择一。因此,表达“A或B”意味着A或B,或者A和B,其也可表示为“A和/或B”。根据如上所述第一方面的对所述数据块进行重复数据删除的所述装
置,在第一可能实施方式中,所述重复数据删除引擎还用于:使用所述多个值查询所述索引;如果所述查询产生匹配条目,根据所述匹配条目获取先前处理数据的特征并且将所述获取的特征与所述数据块的所述特征比较。每个匹配条目,其可以是所述数据块的所述多个值中的至少一个值对应的条目,可以识别先前处理的数据块。由于所述匹配条目的所述对应值可以从一部分所述先前处理的数据块中计算得出,所述先前处理的数据块的所述特征与所述当前数据块的所述特征的后续比较可以用于确定所述先前处理的数据块的其它部分和当前所述数据块的相似性。这具有以下优势:在第一阶段,所述索引可用于确定进行重复数据删除的合适候选块集以实现快速候选块查找;在第二阶段,比较可局限于合适的候选块集,从而降低对先前处理块的特征的访问数量。根据如上所述第一方面或根据第一方面的第一实现方式,在所述装置的第二可能实施方式中,根据一个或多个版本存储先前处理的数据,所述索引的每个条目对应所述先前处理的数据的所述版本中的一个版本。因此,所述先前处理的数据可以是先前存储的数据。即使所述索引可以保持相对较小,但是同时索引搜索会导致所述先前存储的数据的版本不同。阈值K可以用于直接控制所述索引的大小,以便为索引大小和索引数据种类之间的权衡提供最优解。例如,当前的备份系统通常产生包含所有数据的初始全备份或快照,以及多个增量备份或快照,其可只包括有关所述初始全备份或先前增量备份的差异部分。因此,增量备份可以只包含快照内容的子集。为了访问全快照的内容,可以获取来自所述快照和先前快照或所述初始全备份的数据。因此,可以根据若干数据版本获取备份数据,所述数据版本可以由一个或多个快照表示。先前数据版本也可以存在于主存储系统和其它存储方法中。通过在引用一个以上数据版本的所述索引中存储条目,重复数据删除率可以明显提高。重复数据删除可以在各种应用场景中使用,这需要对大量数据进行高效处理和压缩,例如用于在备份系统中存储数据以及用于数据传输或通信。应理解,即使根据本专利技术的各个方面和实施方式可以有关特定应用场景下的重复数据删除,重复数据删除不仅仅局限于本应用场景并且可以在各种其它应用领域中应用以利用先前处理的数据的冗余性。根据如上所述第一方面或根据所述第一方面的任意前述实现方式,在所述装置的第三可能实施方式中,所述重复数据删除引擎还用于:基于所述查询确定是否要对所述数据块进行重复数据删除;如果要对至少一部分所述数据块进行重复数据删除,将所述至少一部分所述数据块替换为所述匹配数据的引用。重复数据删除过程可使用容器或类似的数据结构来保存所述数据块的元数据。所述容器还可包括先前处理的匹配数据的引用以及由于先前未处理匹配数据而未进行重复数据删除的部分所述数据块的引用。例如,可对所述数据块或所述数据块的各个部分进行重复数据删除并且根据各个容器中的重复数据删除的结果对所述数据块或所述数本文档来自技高网
...

【技术保护点】
一种装置,其特征在于,包括:接口,用于接收数据块;以及耦合至所述接口的重复数据删除引擎(104),用于基于使用从所述数据块中计算所得的多个值查询索引对所述数据块进行重复数据删除,以及将多个新条目插入至所述索引中,每个条目对应于所述多个值中的一个值,其中为了将所述多个新条目插入至所述索引中,所述重复数据删除引擎(104)还用于:为每个新条目确定所述索引中对应于相同值的条目数量;如果所述条目数量超过阈值,将所述条目中的一个条目替换为所述新条目。

【技术特征摘要】
【国外来华专利技术】1.一种装置,其特征在于,包括:接口,用于接收数据块;以及耦合至所述接口的重复数据删除引擎(104),用于基于使用从所述数据块中计算所得的多个值查询索引对所述数据块进行重复数据删除,以及将多个新条目插入至所述索引中,每个条目对应于所述多个值中的一个值,其中为了将所述多个新条目插入至所述索引中,所述重复数据删除引擎(104)还用于:为每个新条目确定所述索引中对应于相同值的条目数量;如果所述条目数量超过阈值,将所述条目中的一个条目替换为所述新条目。2.根据权利要求1所述的装置,其特征在于,为了对所述数据块进行重复数据删除,所述重复数据删除引擎(104)还用于:使用所述多个值查询所述索引;如果所述查询产生匹配条目,根据所述匹配条目获取先前处理数据的特征,以及将所述获取的特征与所述数据块的所述特征比较。3.根据权利要求1或2所述的装置,其特征在于,根据一个或多个版本存储先前处理的数据,所述索引的每个条目对应所述先前处理的数据的所述版本中的一个版本。4.根据前述权利要求之一所述的装置,其特征在于,所述重复数据删除引擎(104)还用于:基于所述查询确定是否将对所述数据块进行重复数据删除;如果将对至少一部分所述数据块进行重复数据删除,将所述至少一部分所述数据块替换为所述匹配数据的引用。5.根据前述权利要求之一所述的装置,其特征在于,所述索引为稀疏索引,所述稀疏索引的每个条目对应数据块。6.根据前述权利要求之一所述的装置,其特征在于,所述重复数据删除引擎(104)还用于将所述...

【专利技术属性】
技术研发人员:亚伊尔·托弗
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1