重复数据删除方法及装置制造方法及图纸

技术编号:8805747 阅读:172 留言:0更新日期:2013-06-13 22:35
本发明专利技术实施例提供一种重复数据删除方法及装置,该重复数据删除方法包括:查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果;根据查询结果识别到数据块文件中存在与修改后的数据块相同的数据块时,根据数据块文件对修改后的数据块的索引进行更新;根据查询结果识别到数据块文件中不存在与修改后的数据块相同的数据块时,将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新。本发明专利技术实施例提供的重复数据删除方法及装置,实现对修改后的重复数据的删除,提高了其他数据块文件被修改的性能,提高了重复数据的删除效果。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术实施例涉及数据存储技术,尤其涉及一种重复数据删除方法及装置
技术介绍
随着全球化信息化的发展,企业数据呈爆炸式增长,企业数据冗余程度不断增高。重复数据删除技术是一种数据缩减技术,用于减少冗余数据在存储系统中使用的存储空间。现有技术中的重复数据删除方法通常将用户文件分成多个数据块,对于重复的数据块只保留一个并记录在数据块文件中,建立用户文件与数据块文件的索引关系,以实现对重复数据的删除。当用户文件被修改时,需要建立对应于该用户文件的修改文件,将修改的数据块记录在该修改文件中,并建立修改后用户文件与修改文件的索引,即修改后的用户文件的索引分为两类:指向数据块文件的索引和指向修改文件的索引。由于修改文件与用户文件相对应,当大量用户文件被修改时,会生成大量的修改文件,修改文件多到一定程度是,会大大降低重删率,也会影响修改其他用户文件的性能。
技术实现思路
本专利技术实施例提供一种重复数据删除方法及装置,以避免了由于修改文件过多导致的重删率降低的问题,提高了重复数据的删除效果本专利技术实施例提供一种重复数据删除方法,包括:查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果,其中,所述数据块文件包括至少一个数据块,所述修改后的数据块为上一次重复数据删除后修改的数据块;根据所述查询结果识别到所述数据块文件中存在与所述修改后的数据块相同的数据块时,根据所述数据块文件对所述修改后的数据块的索引进行更新;根据所述查询结果识别到所述数据块文件中不存在与所述修改后的数据块相同的数据块时,将所述修改后的数据块添加到所述数据块文件中,并根据添加后的数据块文件对所述修改后的数据块的索引进行更新。本专利技术实施例提供一种重复数据删除装置,包括:查询模块,用于查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果,其中,所述数据块文件包括至少一个数据块,所述修改后的数据块为上一次重复数据删除后修改的数据块;第一处理模块,用于根据所述查询结果识别到所述数据块文件中存在与所述修改后的数据块相同的数据块时,根据所述数据块文件对所述修改后的数据块的索引进行更新;第二处理模块,用于根据所述查询结果识别到所述数据块文件中不存在与所述修改后的数据块相同的数据块时,将所述修改后的数据块添加到所述数据块文件中,并根据添加后的数据块文件对所述修改后的数据块的索引进行更新。由上述技术方案可知,本专利技术实施例提供的重复数据删除方法及装置,查询数据块文件中是否存在与修改后的数据块相同的数据块,若数据块文件中存在与修改后的数据块相同的数据块,则根据数据块文件对修改后的数据块的索引进行更新,若数据块文件中不存在与修改后的数据块相同的数据块,则将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新。对于修改后的数据块,若数据块文件中已存在与该修改后的数据块内容一致的数据块,则直接修改该修改后的数据块的索引,实现对修改后的重复数据的删除。若该修改后的数据块的内容为新的内容,则将该修改后的数据块添加到数据块文件中,并更新该修改后的数据块的索引,无需建立新的修改文件。避免了由于修改文件过多导致的重删率降低的问题,提高了其他数据块文件被修改的性能,提高了重复数据的删除效果,提高了空间节约率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一提供的重复数据删除方法流程图;图2为本专利技术实施例二提供的重复数据删除方法流程图;图3为本专利技术实施例三提供的重复数据删除装置结构示意图;图4为本专利技术实施例四提供的重复数据删除装置结构示意图。具体实施例方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1为本专利技术实施例一提供的重复数据删除方法流程图。如图1所示,本实施例提供的重复数据删除方法具体可以应用于对存储系统中的重复数据的删除过程,可以通过重复数据删除装置来执行。该重复数据删除装置可以集成在该存储系统中,也可以单独设置。具体地,存储系统中的数据可以以用户文件的形式提供给用户,在未对存储系统中的数据进行任何处理时,用户浏览用户文件时,直接从存储系统中读取与该用户文件对应的数据并显示给用户,用户修改用户文件中的数据时,则直接对存储系统中与该用户文件对应的数据进行修改。对存储系统中的重复数据进行删除处理时,可以首先将数据划分为多个数据块。对数据进行划分可以采用定长分块方式也可以采用变长分块方式。定长分块方式中,数据块的容量均为预设容量,变长分块方式中,可以根据数据的内容对数据进行分块,将具有关联的内容划分在一个数据块内,可以提高数据块的完整性。对于重复的数据块只保留一个并记录在数据块文件中,建立用户文件与数据块文件的索引关系。该索引关系的格式中具体可以包括以下关键字段。权利要求1.一种重复数据删除方法,其特征在于,包括: 查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果,其中,所述数据块文件包括至少一个数据块,所述修改后的数据块为上一次重复数据删除后修改的数据块; 根据所述查询结果识别到所述数据块文件中存在与所述修改后的数据块相同的数据块时,根据所述数据块文件对所述修改后的数据块的索引进行更新; 根据所述查询结果识别到所述数据块文件中不存在与所述修改后的数据块相同的数据块时,将所述修改后的数据块添加到所述数据块文件中,并根据添加后的数据块文件对所述修改后的数据块的索引进行更新。2.根据权利要求1所述的重复数据删除方法,其特征在于: 根据修改后的数据块对数据块文件进行查询,生成查询结果之前,还包括: 将修改文件中的数据划分成所述修改后的数据块,所述修改文件用以记录所述上一次重复数据删除后修改的数据; 相应地,对所述修改后的数据块的索引进行更新之后,还包括: 当所述修改文件中所有的所述修改后的数据块的索引都更新后,将所述修改文件删除。3.根据权利要求2所述的重复数据删除方法,其特征在于,将修改文件中的数据划分成所述修改后的数据块,包括: 从所述修改文件中获取连续修改数据,若所述连续修改数据的容量大于预设阈值,则根据所述预设阈值将所述连续修改数据划分为至少两个所述修改后的数据块,若所述连续修改数据的容量不大于所述预设阈值,则将所述连续修改数据作为一个所述修改后的数据块。4.根据权利要求1或2或3所述的重复数据删除方法,其特征在于,根据修改后的数据块对数据块文件进行查询,生成查询结果,包括: 计算所述修改后的数据块的哈希值,将所述修改后的数据块的哈希值分别与获取到的所述数据块文件中各数据块的哈希值进行匹配,若匹配成功,则生成用以指示所述数据块文件中存在与所述修改后的数据块相同的数据块的查询结果,若匹配失败本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:段雨梅
申请(专利权)人:华为技术有限公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1