The embodiment of the present application discloses a method for determining duplicate information and related devices, belonging to the field of information processing. The method includes: obtaining a set of files to be duplicated; extracting the feature quantity of each file in the set, and taking at least one file as the clustering center for each clustering center, executing: calculating the feature similarity of each file and the feature quantity of the clustering center; and taking the feature similarity of each file and the clustering center as the clustering center. Size order, each file is sorted into a file sequence; and in the file sequence, each file is executed separately as a benchmark file: within the specified sequence length containing the benchmark file, the file whose characteristic similarity meets the preset conditions is determined as a duplicate file of the benchmark file. The embodiment of the present application only finds duplicate files of reference files within a specified sequence length, which can reduce computation and improve efficiency compared with traversing all files.
【技术实现步骤摘要】
重复信息的确定方法及相关装置
本申请实施例涉及信息处理
,特别涉及重复信息的确定方法及相关装置。
技术介绍
随着数字化和网络技术的不断发展,企业或个人接触的信息量日益增长。在庞大的信息网中,重复的信息给人们来带诸多不便。例如,提供信息的企业,存储重复的信息造成存储资源的浪费。对于个人而言,查看重复的信息还造成时间成本的增加。故此,如何更有效的管理或运用信息成为业内渴望解决的问题。因而,衍生出了确定重复信息的技术。现有技术中,以信息为图像为例,通常首先计算图像的哈希值,然后针对任一图像,遍历所有其他图像,将具有相同哈希值的图像确定为重复图像。然而,上述方法中,随着信息量的增加,遍历操作会加重处理负荷,导致确定重复信息的效率有待提高。
技术实现思路
为了解决通过遍历所有信息确定重复信息而导致处理效率低的问题,本申请实施例提供了重复信息的确定方法及相关装置。所述技术方案如下:根据本申请实施例的第一方面,提供了一种重复信息的确定方法,该方法包括:获得待去重文件集合;提取待去重文件集合中每个文件的特征量,并将至少一个文件作为聚类中心,针对每一个聚类中心,执行:计算各个文件与聚类中心的特征量的特征相似度;以各个文件与该聚类中心的特征相似度的大小顺序,将各个文件排序为一个文件序列;并,在文件序列中,以每一个文件为基准文件分别执行:在包含该基准文件的指定序列长度内,将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。在一些可能的实施方式中,所述提取待去重文件集合中每个文件的特征量,包括:根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集 ...
【技术保护点】
1.一种重复信息的确定方法,其特征在于,所述方法包括:获得待去重文件集合;提取待去重文件集合中每个文件的特征量,并将至少一个文件作为聚类中心,针对每一个聚类中心,执行:计算各个文件与聚类中心的特征量的特征相似度;以各个文件与该聚类中心的特征相似度的大小顺序,将各个文件排序为一个文件序列;并,在文件序列中,以每一个文件为基准文件分别执行:在包含该基准文件的指定序列长度内,将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。
【技术特征摘要】
1.一种重复信息的确定方法,其特征在于,所述方法包括:获得待去重文件集合;提取待去重文件集合中每个文件的特征量,并将至少一个文件作为聚类中心,针对每一个聚类中心,执行:计算各个文件与聚类中心的特征量的特征相似度;以各个文件与该聚类中心的特征相似度的大小顺序,将各个文件排序为一个文件序列;并,在文件序列中,以每一个文件为基准文件分别执行:在包含该基准文件的指定序列长度内,将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。2.根据权利要求1所述的方法,其特征在于,所述提取待去重文件集合中每个文件的特征量,包括:根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集合中每个文件的特征。3.根据权利要求2所述的方法,其特征在于,采用距离测度法或相似性函数计算各个文件与聚类中心的特征相似度。4.根据权利要求1所述的方法,其特征在于,所述提取待去重待去重文件集合中每个文件的特征量,包括对待去重文件集合中的每一个文件分别按照下述步骤提取特征量:对文件进行离散余弦变换;对离散余弦变换的结果采用预设计算模型进行计算;对计算结果进行二进制编码,将编码结果作为提取的特征量。5.根据权利要求4所述的方法,其特征在于,所述计算各个文件与聚类中心的特征量的特征相似度,包括:计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。6.根据权利要求1-5中任一所述的方法,其特征在于,所述方法还包括:为确定出重复文件的基准文件构建重复文件组,其中,每个重复文件组中包括基准文件标识...
【专利技术属性】
技术研发人员:余宗桥,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。