文件去重方法、装置、计算机设备、可读存储介质和产品制造方法及图纸

技术编号:41708946 阅读:16 留言:0更新日期:2024-06-19 12:39
本申请涉及一种文件去重方法、装置、计算机设备、可读存储介质和产品,涉及大数据技术领域。方法包括:响应于针对待去重文件的文件去重指令,读取待去重文件中的各内容数据;基于各内容数据对应的哈希值所匹配的标识位,在标识位进行数据标识处理,得到每一内容数据在对应标识位的数据标识;识别各内容数据中数据标识相同的目标数据,将待去重文件拆分为包含目标数据的重复文件和不包含目标数据的不重复文件;在重复文件的文件大小未超过预设内存阈值时,将重复文件中与不重复文件内容不同的目标内容数据,添加至不重复文件,得到与文件去重指令对应的目标文件。采用本方法能够提高文件去重的效率。

【技术实现步骤摘要】

本申请涉及大数据,特别是涉及一种文件去重方法、装置、计算机设备、可读存储介质和产品


技术介绍

1、随着大数据的发展,各行各业的数据总量有着飞速增长,迫切的需要发展新的技术来高效地使用存储空间,因此,文件去重技术引起了广泛关注。采用文件去重技术识别出相同的数据,能够有效节省存储空间。

2、目前针对文件的去重,通常是采用先将文件写入数据库中,再依赖数据库的唯一性索引来排除文件中的重复数据的方式。然而绝大部分文件都包含巨大的数据量,容易给数据库内存造成一定的压力,从而导致文件去重效率低下。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高文件去重效率的文件去重方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种文件去重方法。方法包括:响应于针对待去重文件的文件去重指令,读取待去重文件中的各内容数据;基于各内容数据对应的哈希值所匹配的标识位,在标识位进行数据标识处理,得到每一内容数据在对应标识位的数据标识;识别各内容数据中数据标识相同本文档来自技高网...

【技术保护点】

1.一种文件去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述在所述重复文件对应的文件大小未超过预设内存阈值时的步骤之前,还包括:

3.根据权利要求1所述的方法,其特征在于,在所述基于各所述内容数据对应的哈希值所匹配的标识位的步骤之前,还包括:

4.根据权利要求3所述的方法,其特征在于,在所述对每一所述内容数据对应的哈希值进行取模处理的步骤之前,还包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述数据复杂度,对各所述内容数据进行哈希处理,得到各所述内容数据对应的哈希值,包括:

6.根...

【技术特征摘要】

1.一种文件去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述在所述重复文件对应的文件大小未超过预设内存阈值时的步骤之前,还包括:

3.根据权利要求1所述的方法,其特征在于,在所述基于各所述内容数据对应的哈希值所匹配的标识位的步骤之前,还包括:

4.根据权利要求3所述的方法,其特征在于,在所述对每一所述内容数据对应的哈希值进行取模处理的步骤之前,还包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述数据复杂度,对各所述内容数据进行哈希处理,得到各所述内容数据对应的哈希值,包括:

6.根据权利要求1所述的方法,其特征在于,在所述读取所述待去重文件中的各内容数据的步骤之前,还包括:

7.一种文件去重装置,其特征在于,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,所述装置还用于:在所述重复文件对应的文件大小超过所述...

【专利技术属性】
技术研发人员:叶招艳曾鑫鑫
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1