System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种重复文件扫描方法、装置、计算机设备及存储介质制造方法及图纸_技高网

一种重复文件扫描方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:40581141 阅读:13 留言:0更新日期:2024-03-06 17:24
本发明专利技术公开了一种重复文件扫描方法、装置、计算机设备及存储介质,该方法包括:获取多种文件扫描方案,并利用评价指标对每一文件扫描方案进行打分,得到对应的方案得分;根据所述方案得分获取每一文件扫描方案的扫描性能得分,并按照扫描性能得分对所有文件扫描方案进行排序,以此建立目标文件扫描模型;采用精度递进的方式,利用目标文件扫描模型中的文件扫描方案对扫描目标进行重复性递进扫描,得到对应的扫描结果。本发明专利技术根据评价指标对文件扫描方案进行评价,以此构建得到目标文件扫描模型,然后通过精度递进的方式,利用目标文件扫描模型对扫描目标进行重复性递进扫描,如此可以提高文件重复性扫描的效率和准确性。

【技术实现步骤摘要】

本专利技术涉及计算机软件,特别涉及一种重复文件扫描方法、装置、计算机设备及存储介质


技术介绍

1、重复文件扫描即是指针对一份文件,判断是否存在另一份相同的文件。传统判断两份文件是否为同一份文件,比较常见的方法是计算文件的特征码,例如当需要判断计算机内的重复文件时,就会将计算机中所有的文件都计算一遍文件特征码。这里的文件特征码一般为md5或者sha-256值。

2、而随着科技发展,计算机的磁盘空间也越来越大,故所存放的计算机文件数量越来越多,单份文件的占用空间也越来越大,因此紧靠md5、sha-256等特征码计算方式来进行重复扫描,其扫描效率会变得越来越低。而且md5、sha-256等特征码的计算速度与计算硬件(如cpu)、计算特征码采用的算法以及文件大小等因素都成正相关关系。例如在硬件受外界影响,特征码算法已被固定的情况下,文件大小,和文件数量就成了影响重复文件判断速度的最重要的因素之一,如果直接使用md5、sha-256等算法,那么在扫描时,由于存放临时数据,也会发生占用较多的计算机内存等计算机性能等情况,如此便会导致整体扫描效率低。而如果只单独使用低精度的算法,那么在文件数量多的情况下,又很容易将许多文件误判断成同一个文件,即这种情况下重复文件的扫描精度不足。


技术实现思路

1、本专利技术实施例提供了一种重复文件扫描方法、装置、计算机设备及存储介质,旨在提高文件重复性扫描的效率和准确性。

2、第一方面,本专利技术实施例提供了一种重复文件扫描方法,包括:

3、获取多种文件扫描方案,并利用评价指标对每一所述文件扫描方案进行打分,得到对应的方案得分;其中,所述评价指标包括扫描精度、扫描速度;

4、根据所述方案得分设置每一所述文件扫描方案的扫描性能得分,并按照所述扫描性能得分对所有文件扫描方案进行排序,以此建立目标文件扫描模型;

5、获取待重复扫描的扫描目标,采用精度递进的方式,利用所述目标文件扫描模型中的文件扫描方案对所述扫描目标进行重复性递进扫描,得到对应的扫描结果。

6、第二方面,本专利技术实施例提供了一种重复文件扫描装置,包括:

7、方案评价单元,用于获取多种文件扫描方案,并利用评价指标对每一所述文件扫描方案进行打分,得到对应的方案得分;其中,所述评价指标包括扫描精度、扫描速度;

8、模型建立单元,用于根据所述方案得分设置每一所述文件扫描方案的扫描性能得分,并按照所述扫描性能得分对所有文件扫描方案进行排序,以此建立目标文件扫描模型;

9、文件扫描单元,用于获取待重复扫描的扫描目标,采用精度递进的方式,利用所述目标文件扫描模型中的文件扫描方案对所述扫描目标进行重复性递进扫描,得到对应的扫描结果。

10、第三方面,本专利技术实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的重复文件扫描方法。

11、第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的重复文件扫描方法。

12、本专利技术实施例提供了一种重复文件扫描方法、装置、计算机设备及存储介质,该方法包括:获取多种文件扫描方案,并利用评价指标对每一所述文件扫描方案进行打分,得到对应的方案得分;其中,所述评价指标包括扫描精度、扫描速度;根据所述方案得分设置每一所述文件扫描方案的扫描性能得分,并按照所述扫描性能得分对所有文件扫描方案进行排序,以此建立目标文件扫描模型;获取待重复扫描的扫描目标,采用精度递进的方式,利用所述目标文件扫描模型中的文件扫描方案对所述扫描目标进行重复性递进扫描,得到对应的扫描结果。本专利技术实施例首先根据评价指标对不同的文件扫描方案进行评价打分,以此构建得到目标文件扫描模型,然后通过精度递进的方式,利用目标文件扫描模型对扫描目标进行重复性递进扫描,如此可以提高文件重复性扫描的效率和准确性。

本文档来自技高网...

【技术保护点】

1.一种重复文件扫描方法,其特征在于,包括:

2.根据权利要求1所述的重复文件扫描方法,其特征在于,所述文件扫描方案包括根据内存空间大小扫描的第一文件扫描方案、根据文件头信息扫描的第二文件扫描方案、根据文件部分MD5值扫描的第三文件扫描方案、根据文件完整MD5值扫描的第四文件扫描方案以及根据文件SHA-256值扫描的第五文件扫描方案。

3.根据权利要求2所述的重复文件扫描方法,其特征在于,所述获取多种文件扫描方案,并利用评价指标对每一所述文件扫描方案进行打分,得到对应的方案得分,包括:

4.根据权利要求3所述的重复文件扫描方法,其特征在于,所述根据所述方案得分设置每一所述文件扫描方案的扫描性能得分,并按照所述扫描性能得分对所有文件扫描方案进行排序,以此建立目标文件扫描模型,包括:

5.根据权利要求4所述的重复文件扫描方法,其特征在于,所述获取待重复扫描的扫描目标,采用精度递进的方式,利用所述目标文件扫描模型中的文件扫描方案对所述扫描目标进行重复性递进扫描,得到对应的扫描结果,包括:

6.根据权利要求5所述的重复文件扫描方法,其特征在于,所述利用所述第一文件扫描方案对所述目标对象进行重复性扫描,包括:

7.根据权利要求6所述的重复文件扫描方法,其特征在于,所述利用所述第二文件扫描方案对所述扫描目标进行重复性扫描,包括:

8.一种重复文件扫描装置,其特征在于,包括:

9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的重复文件扫描方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的重复文件扫描方法。

...

【技术特征摘要】

1.一种重复文件扫描方法,其特征在于,包括:

2.根据权利要求1所述的重复文件扫描方法,其特征在于,所述文件扫描方案包括根据内存空间大小扫描的第一文件扫描方案、根据文件头信息扫描的第二文件扫描方案、根据文件部分md5值扫描的第三文件扫描方案、根据文件完整md5值扫描的第四文件扫描方案以及根据文件sha-256值扫描的第五文件扫描方案。

3.根据权利要求2所述的重复文件扫描方法,其特征在于,所述获取多种文件扫描方案,并利用评价指标对每一所述文件扫描方案进行打分,得到对应的方案得分,包括:

4.根据权利要求3所述的重复文件扫描方法,其特征在于,所述根据所述方案得分设置每一所述文件扫描方案的扫描性能得分,并按照所述扫描性能得分对所有文件扫描方案进行排序,以此建立目标文件扫描模型,包括:

5.根据权利要求4所述的重复文件扫描方法,其特征在于,所述获取待重复扫描的扫描目标...

【专利技术属性】
技术研发人员:陈翔于仁龙
申请(专利权)人:深圳软牛科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1