文件的去重处理方法和装置制造方法及图纸

技术编号:15437347 阅读:61 留言:0更新日期:2017-05-25 19:29
本发明专利技术提供一种文件的去重处理方法和装置。本发明专利技术提供的文件的去重处理方法,包括:从上述文件中获取至少两个数据块;根据预设的哈希算法分别计算每个数据块的消息摘要,并根据上述至少两个数据块的消息摘要得到组合消息摘要;根据上述组合消息摘要进行去重比对操作。本发明专利技术提供的文件的去重处理方法,可降低组合消息摘要碰撞的概率,进而降低进行全文比对的概率,从而避免因全文比对导致的增加比对的工作量、增加比对的成本的问题。

Method and apparatus for de processing files

The present invention provides a method and apparatus for de processing files. Re processing method, the invention provides a document comprises: acquiring at least two data blocks from the file; each data block message digest is calculated on the basis of the hash algorithm preset, and combination of the message according to at least two of the data blocks the message digest; to re alignment operation according to the combination of message digest. To the processing method provided by the invention of the file, can reduce the probability of collision and combination of message digest, reduce the probability of the alignment, so as to avoid the full text alignment leads to an increase in ratio of workload and increase the cost of the comparison.

【技术实现步骤摘要】
文件的去重处理方法和装置
本专利技术涉及数据处理技术,尤其涉及一种文件的去重处理方法和装置。
技术介绍
为避免相同的文件被重复存储,占用存储系统的容量,需要进行文件去重处理。目前,采用如下方法来判断第一文件和第二文件是否相同,以在第一文件和第二文件相同时,进行文件去重处理。首先,对第一文件和第二文件分别进行哈希处理,得到第一文件的第一消息摘要和第二文件的第二消息摘要,然后,判断第一消息摘要与第二消息摘要是否相同。若第一消息摘要与第二消息摘要不相同,则确定第一文件和第二文件不同,不执行去重处理,两个文件分别进行存储,若第一消息摘要和第二消息摘要相同,则再判断第一文件的全文和第二文件的全文是否相同,若第一文件的全文和第二文件的全文相同,则确定第一文件和第二文件相同,执行去重处理,若第一文件的全文和第二文件的全文不相同,则确定第一文件与第二文件不相同,不执行去重处理,两个文件分别存储。采用上述方法来判断两个文件是否相同时,由于哈希处理自身的特性,不同文件进过哈希处理后,可能会得到同样的消息摘要,例如,将两个不同的文件经过MD5算法处理后,得到的消息摘要碰撞(相同)的概率为1/2128,两个不同的文件的消息摘要碰撞的概率较高。这样,一旦两个不同的文件的消息摘要相同,为判断两个文件是否相同,就需要对两个文件进行全文比对,而这样因碰撞概率高导致的全文比对往往会增加比对的工作量,导致比对成本增加。
技术实现思路
本专利技术提供一种文件的去重处理方法,以解决现有的文件去重方法中,因文件的消息摘要碰撞的概率较高而导致的比对的工作量大、比对的成本高的问题。本专利技术第一方面提供一种文件的去重处理方法,包括:从所述文件中获取至少两个数据块;根据预设的哈希算法分别计算每个数据块的消息摘要,并根据所述至少两个数据块的消息摘要得到组合消息摘要;根据所述组合消息摘要进行去重比对操作。进一步地,所述从所述文件中获取至少两个数据块,具体包括:按照预设的内存间隔,间隔从所述文件中提取第一元数据块;根据预设的组合策略,将所述第一元数据块组合为所述至少两个数据块。进一步地,所述从所述文件中获取至少两个数据块,具体包括:按照预设的数据块大小,顺序从所述文件中提取第二元数据块;根据预设的组合策略,将所述第二元数据块组合为所述至少两个数据块。进一步地,所述哈希算法为Rabin算法、MD5算法、SHA-1算法、SHA-224算法、SHA-256算法、SHA-384算法和SHA算法中的任一种。本专利技术第二方面提供一种文件的去重处理装置,包括:获取模块,计算模块和处理模块,其中,所述获取模块,用于从所述文件中获取至少两个数据块;所述计算模块,用于根据预设的哈希算法分别计算每个数据块的消息摘要,并根据所述至少两个数据块的消息摘要得到组合消息摘要;所述处理模块,用于根据所述组合消息摘要进行去重比对操作。进一步地,所述获取模块,具体用于按照预设的内存间隔,间隔从所述文件中提取第一元数据块,并根据预设的组合策略,将所述第一元数据块组合为所述至少两个数据块进一步地,所述获取模块,具体用于根据预设的数据块按照预设的数据块大小,顺序从所述文件中提取第二元数据块,并根据预设的组合策略,将所述第二元数据块组合为所述至少两个数据块。进一步地,所述哈希算法为Rabin算法、MD5算法、SHA-1算法、SHA-224算法、SHA-256算法、SHA-384算法和SHA算法中的任一种。本专利技术提供的文件的去重处理方法和装置,通过从上述文件中获取至少两个数据块,并根据预设的哈希算法分别计算每个数据块的消息摘要,以及根据上述至少两个数据块的消息摘要得到组合消息摘要,进而根据上述组合消息摘要进行去重比对操作。这样,可降低组合消息摘要碰撞的概率,进而降低进行全文比对的概率,从而避免因全文比对导致的增加比对的工作量、增加比对的成本的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术文件的去重处理方法实施例一的流程图;图2为本专利技术文件的去重处理方法实施例二的流程图;图3为本专利技术文件的去重处理方法实施例三的流程图;图4为本专利技术文件的去重处理装置实施例一的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种文件的去重处理方法,以解决现有的文件去重方法中,因文件的消息摘要碰撞的概率较高而导致的比对的工作量大、比对的成本高的问题。本专利技术提供的文件的去重处理方法,可应用于文件数据处理领域,具体的,可应用本专利技术提供的文件的去重处理方法,来判断两个文件是否相同,进而决定是否进行去重处理,以避免相同的文件被重复存储,进而占用存储空间的容量。下面以具体的实施例来对本专利技术的技术方案进行详细说明,下面这几个具体的实施例可以相互结合,对于相同或相应的概念或过程可能在某些实施例中不再赘述。图1为本专利技术文件的去重处理方法实施例一的流程图。本专利技术实施例的执行主体可以是单独的文件的去重处理装置,还可以是集成了文件的去重处理装置的硬件设备,例如计算机。本专利技术实施例以执行主体为单独的文件的去重处理装置为例来进行说明。本实施例涉及的是计算文件的组合消息摘要,并根据组合消息摘要进行去重比对操作的具体过程。如图1所示,本实施例提供的文件的去重处理方法,可以包括如下步骤:S101、从上述文件中获取至少两个数据块。具体地,本实施例中,文件的类型可以为压缩文件类、音视频文件类,图像文件类、可执行文件类、文档类和数据文件类等。例如,压缩文件类可以是arc压缩文件、cab压缩文件、ddi压缩文件等;音视频文件类可以为avi音视频文件、cmf音视频文件、fli音视频文件、ins音视频文件、mp3音视频文件、mov音视频文件等;图像文件类可以是bmp图像文件、bgi图像文件、cad图像文件、cd图像文件、ico图像文件、jpg图像文件、lbm图像文件、caj图像文件等。文档类文件可以为doc文件、fmt文件、fnt文件、mbd文件、wps文件、xls文件等;可执行文件类可以为com文件、dll文件、drv文件、exe文件、fox文件、fxp文件等;数据文件类可以为dat文件、dbf文件、idx文件、img文件、mem文件等。此外,可以采用如下方法从上述文件中获取至少两个数据块。例如,在一种可能的实现方式中,可以将文件分为内存大小相等的至少两部分,得到至少两个数据块。再例如,在另一种可能的实现方式中,可以从文件中的任意位置任意获取至少两个数据块。在该种实现方式中,例如,假设将文件分为内存大小相等的三部分,这三部分按照在文件中的先后顺序依次记为第一部分、第二部分和第三部分,可以从文件的第一部分中的任意位置获取一个任意内存大小的数据块,再从文件本文档来自技高网...
文件的去重处理方法和装置

【技术保护点】
一种文件的去重处理方法,其特征在于,包括:从所述文件中获取至少两个数据块;根据预设的哈希算法分别计算每个数据块的消息摘要,并根据所述至少两个数据块的消息摘要得到组合消息摘要;根据所述组合消息摘要进行去重比对操作。

【技术特征摘要】
1.一种文件的去重处理方法,其特征在于,包括:从所述文件中获取至少两个数据块;根据预设的哈希算法分别计算每个数据块的消息摘要,并根据所述至少两个数据块的消息摘要得到组合消息摘要;根据所述组合消息摘要进行去重比对操作。2.根据权利要求1所述的方法,其特征在于,所述从所述文件中获取至少两个数据块,具体包括:按照预设的内存间隔,间隔从所述文件中提取第一元数据块;根据预设的组合策略,将所述第一元数据块组合为所述至少两个数据块。3.根据权利要求1所述的方法,其特征在于,所述从所述文件中获取至少两个数据块,具体包括:按照预设的数据块大小,顺序从所述文件中提取第二元数据块;根据预设的组合策略,将所述第二元数据块组合为所述至少两个数据块。4.根据权利要求1-3任一项所述的方法,其特征在于,所述哈希算法为Rabin算法、MD5算法、SHA-1算法、SHA-224算法、SHA-256算法、SHA-384算法和SHA算法中的任一种。5.一种文件的去重处理装置,其...

【专利技术属性】
技术研发人员:赵汝成曾鸿军王鹏雷
申请(专利权)人:北京二六三企业通信有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1