文件查重方法及装置制造方法及图纸

技术编号:24573838 阅读:41 留言:0更新日期:2020-06-21 00:05
本发明专利技术实施例提出文件查重方法及装置。方法包括:扫描设备本地磁盘上存储的所有文件,将每个文件的文件名、文件存储路径和文件大小记录到文件信息数据库;根据文件信息数据库记录的各文件的文件大小,将大小相同的文件划分到一个文件组中;对于每个文件组,按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样,按照预设加密算法对每个文件的采样数据分别进行加密计算;将每个文件组中加密计算结果相同的文件判定为重复文件。本发明专利技术实施例实现了对设备本地存储文件的查重。

Method and device of document duplicate checking

【技术实现步骤摘要】
文件查重方法及装置
本专利技术涉及文件管理
,尤其涉及文件查重方法及装置、非瞬时计算机可读存储介质和电子设备。
技术介绍
在客户端-服务器架构中,经常需要将数据从客户端上传到服务器,为了减少服务器的存储负担,尤其在客户端数量众多的情形下,在客户端上传数据前,通常需要对文件进行查重处理,若发现该文件在服务器上已经存在,则不再上传。现有的查重算法如下:客户端采用预设算法计算待上传文件的唯一码,将该唯一码提供给服务器,服务器在保存每个文件时会采用相同的算法计算文件的唯一码,服务器收到客户端发来的唯一码后,将该唯一码与自身保存的各文件的唯一码比对,若发现有相同的,则确定文件重复,则通知客户端,客户端不再上传该文件。
技术实现思路
本专利技术实施例提出文件查重方法及装置、非瞬时计算机可读存储介质和电子设备,以实现对设备本地存储文件的查重。本专利技术实施例的技术方案是这样实现的:一种文件查重方法,该方法包括:扫描设备本地磁盘上存储的所有文件,将每个文件的文件名、文件存储路径和文件大小记录到文件信息数本文档来自技高网...

【技术保护点】
1.一种文件查重方法,其特征在于,该方法包括:/n扫描设备本地磁盘上存储的所有文件,将每个文件的文件名、文件存储路径和文件大小记录到文件信息数据库;/n根据文件信息数据库记录的各文件的文件大小,将大小相同的文件划分到一个文件组中;/n对于每个文件组,按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样,按照预设加密算法对每个文件的采样数据分别进行加密计算;/n将每个文件组中加密计算结果相同的文件判定为重复文件。/n

【技术特征摘要】
1.一种文件查重方法,其特征在于,该方法包括:
扫描设备本地磁盘上存储的所有文件,将每个文件的文件名、文件存储路径和文件大小记录到文件信息数据库;
根据文件信息数据库记录的各文件的文件大小,将大小相同的文件划分到一个文件组中;
对于每个文件组,按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样,按照预设加密算法对每个文件的采样数据分别进行加密计算;
将每个文件组中加密计算结果相同的文件判定为重复文件。


2.根据权利要求1所述的方法,其特征在于,所述按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括:
对于组内所有文件的文件大小都大于预设采样文件大小的文件组,按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样。


3.根据权利要求1所述的方法,其特征在于,所述将每个文件组中加密计算结果相同的文件判定为重复文件之后进一步包括:
将该文件组的所有重复文件的文件名和文件存储路径提供给客户端;
接收到客户端发来的指示删除一个或多个重复文件的指令,删除对应的一个或多个重复文件。


4.根据权利要求1所述的方法,其特征在于,所述对于每个文件组按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样包括:
对于组内文件数大于1的文件组,按照预设采样频率和采样长度对该文件组内的每个文件分别进行采样。


5.根据权利要求1所述的方法,其特征在于,所述加密算法为信息摘要MD5算法。


6.一种文件查重装置,其特征在于,该装置包括:
扫描模块,扫描设备本...

【专利技术属性】
技术研发人员:汪宇龙孙承华冯广欣
申请(专利权)人:杭州海康存储科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1