重复信息的确定方法及相关装置制造方法及图纸

技术编号:18940702 阅读:30 留言:0更新日期:2018-09-15 11:06
本申请实施例公开了一种重复信息的确定方法及相关装置,属于信息处理领域。该方法包括:获得待去重文件集合;提取该集合中每个文件的特征量,并将至少一个文件作为聚类中心,针对每一个聚类中心,执行:计算各个文件与聚类中心的特征量的特征相似度;以各个文件与该聚类中心的特征相似度的大小顺序,将各个文件排序为一个文件序列;并,在文件序列中,以每一个文件为基准文件分别执行:在包含该基准文件的指定序列长度内,将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。本申请实施例仅在指定序列长度内查找基准文件的重复文件,相对于遍历所有文件能够减少计算量提高效率。

Methods for determining duplicate information and related devices

The embodiment of the present application discloses a method for determining duplicate information and related devices, belonging to the field of information processing. The method includes: obtaining a set of files to be duplicated; extracting the feature quantity of each file in the set, and taking at least one file as the clustering center for each clustering center, executing: calculating the feature similarity of each file and the feature quantity of the clustering center; and taking the feature similarity of each file and the clustering center as the clustering center. Size order, each file is sorted into a file sequence; and in the file sequence, each file is executed separately as a benchmark file: within the specified sequence length containing the benchmark file, the file whose characteristic similarity meets the preset conditions is determined as a duplicate file of the benchmark file. The embodiment of the present application only finds duplicate files of reference files within a specified sequence length, which can reduce computation and improve efficiency compared with traversing all files.

【技术实现步骤摘要】
重复信息的确定方法及相关装置
本申请实施例涉及信息处理
,特别涉及重复信息的确定方法及相关装置。
技术介绍
随着数字化和网络技术的不断发展,企业或个人接触的信息量日益增长。在庞大的信息网中,重复的信息给人们来带诸多不便。例如,提供信息的企业,存储重复的信息造成存储资源的浪费。对于个人而言,查看重复的信息还造成时间成本的增加。故此,如何更有效的管理或运用信息成为业内渴望解决的问题。因而,衍生出了确定重复信息的技术。现有技术中,以信息为图像为例,通常首先计算图像的哈希值,然后针对任一图像,遍历所有其他图像,将具有相同哈希值的图像确定为重复图像。然而,上述方法中,随着信息量的增加,遍历操作会加重处理负荷,导致确定重复信息的效率有待提高。
技术实现思路
为了解决通过遍历所有信息确定重复信息而导致处理效率低的问题,本申请实施例提供了重复信息的确定方法及相关装置。所述技术方案如下:根据本申请实施例的第一方面,提供了一种重复信息的确定方法,该方法包括:获得待去重文件集合;提取待去重文件集合中每个文件的特征量,并将至少一个文件作为聚类中心,针对每一个聚类中心,执行:计算各个文件与聚类中心的特征量的特征相似度;以各个文件与该聚类中心的特征相似度的大小顺序,将各个文件排序为一个文件序列;并,在文件序列中,以每一个文件为基准文件分别执行:在包含该基准文件的指定序列长度内,将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。在一些可能的实施方式中,所述提取待去重文件集合中每个文件的特征量,包括:根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集合中每个文件的特征。在一些可能的实施方式中,采用距离测度法或相似性函数计算各个文件与聚类中心的特征相似度。在一些可能的实施方式中,所述提取待去重文件集合中每个文件的特征量,包括对待去重文件集合中的每一个文件分别按照下述步骤提取特征量:对文件进行DCT(DiscreteCosineTransform,离散余弦)变换;对DCT变换的结果采用预设计算模型进行计算;对计算结果进行二进制编码,将编码结果作为提取的特征量。在一些可能的实施方式中,所述计算各个文件与聚类中心的特征量的特征相似度,包括:计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。所述计算各个文件与聚类中心的特征量的特征相似度,包括:在一些可能的实施方式中,计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。在一些可能的实施方式中,所述方法还包括:为确定出重复文件的基准文件构建重复文件组,其中,每个重复文件组中包括基准文件标识,该基准文件的重复文件的文件标识;对重复文件组进行合并,合并后的每个重复文件组中的文件标识不重复,且任两个重复文件组之间没有交集;将所有合并后的重复文件组中包含的文件标识所对应的文件,存储为已经去重的文件组。在一些可能的实施方式中,所述方法还包括:接收展示排重结果的展示请求;按照重复文件数量多少的顺序依次输出已经去重的文件组。在一些可能的实施方式中,所述方法还包括:从待去重文件集合中随机选取指定数量的文件作为聚类中心。根据本申请实施例的第二方面,提供了一种重复信息的确定装置,所述装置包括:文件获取模块,用于获得待去重文件集合;特征量提取模块,用于提取待去重文件集合中每个文件的特征量,处理模块,用于将至少一个文件作为聚类中心,针对每一个聚类中心,执行:计算各个文件与聚类中心的特征量的特征相似度;以各个文件与该聚类中心的特征相似度的大小顺序,将各个文件排序为一个文件序列;并,在文件序列中,以每一个文件为基准文件分别执行:在包含该基准文件的指定序列长度内,将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。在一些可能的实施方式中,特征量提取模块根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集合中每个文件的特征。在一些可能的实施方式中,处理模块用于采用距离测度法或相似性函数计算各个文件与聚类中心的特征相似度。在一些可能的实施方式中,处理模块用于对待去重文件集合中的每一个文件分别按照下述步骤提取特征量:对文件进行DCT变换;对DCT变换的结果采用预设计算模型进行计算;对计算结果进行二进制编码,将编码结果作为提取的特征量。在一些可能的实施方式中,处理模块用于计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。在一些可能的实施方式中,该装置还包括:组构建模块,用于为确定出重复文件的基准文件构建重复文件组,其中,每个重复文件组中包括基准文件标识,该基准文件的重复文件的文件标识;合并模块,用于对重复文件组进行合并,合并后的每个重复文件组中的文件标识不重复,且任两个重复文件组之间没有交集;存储模块,用于将所有合并后的重复文件组中包含的文件标识所对应的文件,存储为已经去重的文件组。在一些可能的实施方式中,该装置还包括:接收模块,用于接收展示排重结果的展示请求;输出模块,用于按照重复文件数量多少的顺序依次输出已经去重的文件组。在一些可能的实施方式中,该装置还包括:聚类中心选择模块,用于从待去重文件集合中随机选取指定数量的文件作为聚类中心。本申请另一实施例还提供了一种计算设备,其包括存储器和处理器,其中,所述存储器用于存储程序指令,所述处理器用于调用所述存储器中存储的程序指令,按照获得的程序指令执行本申请实施例中的任一重复信息的确定方法。本申请另一实施例还提供了一种计算机存储介质,其中,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行本申请实施例中的任一重复信息的确定方法。本申请实施例中,基于类似文件的特征类似,且与聚类中心相比,类似文件与聚类中心的特征相似度也几乎相同,所以首先根据各文件与聚类中心的特征相似度大小对各文件进行排序后,类型文件在序列中的位置基本集中。所以在排序序列中,针对每个文件只需在以其为基准的指定序列长度内查找重复文件即可,这样,重复文件的查找缩小的指定序列长度内,而不是遍历所有文件,故此可以提高确定重复文件的效率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本申请一个实施例提供的重复信息的确定方法的架构图之一;图2示出了本申请一个实施例提供的重复信息的确定方法的架构图之二;图3示出了本申请一个实施例提供的重复信息的确定方法的流程示意图之一;图4示出了本申请一个实施例提供的重复信息的确定方法的操作界面示意图之一;图5示出了本申请一个实施例提供的信息序列的示意图;图6示出了本申请一个实施例提供的深度卷积神经网络的结构示意图;图7示出了本申请一个实施例提供的自动编码器的结构示意图;图8示出了本申请一个实施例提供的合并重复信息组的示意图;图9示出了本申请一个实施例提供的重复信息的确定方法的流程示意图之二;图10示出了本申请一个实施例提供的重复信息的确定方法的操作界面示意图之二;图11示出了本申请一个实施例提供的重复信息的确定方法的操作界面示意图之本文档来自技高网...

【技术保护点】
1.一种重复信息的确定方法,其特征在于,所述方法包括:获得待去重文件集合;提取待去重文件集合中每个文件的特征量,并将至少一个文件作为聚类中心,针对每一个聚类中心,执行:计算各个文件与聚类中心的特征量的特征相似度;以各个文件与该聚类中心的特征相似度的大小顺序,将各个文件排序为一个文件序列;并,在文件序列中,以每一个文件为基准文件分别执行:在包含该基准文件的指定序列长度内,将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。

【技术特征摘要】
1.一种重复信息的确定方法,其特征在于,所述方法包括:获得待去重文件集合;提取待去重文件集合中每个文件的特征量,并将至少一个文件作为聚类中心,针对每一个聚类中心,执行:计算各个文件与聚类中心的特征量的特征相似度;以各个文件与该聚类中心的特征相似度的大小顺序,将各个文件排序为一个文件序列;并,在文件序列中,以每一个文件为基准文件分别执行:在包含该基准文件的指定序列长度内,将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。2.根据权利要求1所述的方法,其特征在于,所述提取待去重文件集合中每个文件的特征量,包括:根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集合中每个文件的特征。3.根据权利要求2所述的方法,其特征在于,采用距离测度法或相似性函数计算各个文件与聚类中心的特征相似度。4.根据权利要求1所述的方法,其特征在于,所述提取待去重待去重文件集合中每个文件的特征量,包括对待去重文件集合中的每一个文件分别按照下述步骤提取特征量:对文件进行离散余弦变换;对离散余弦变换的结果采用预设计算模型进行计算;对计算结果进行二进制编码,将编码结果作为提取的特征量。5.根据权利要求4所述的方法,其特征在于,所述计算各个文件与聚类中心的特征量的特征相似度,包括:计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。6.根据权利要求1-5中任一所述的方法,其特征在于,所述方法还包括:为确定出重复文件的基准文件构建重复文件组,其中,每个重复文件组中包括基准文件标识...

【专利技术属性】
技术研发人员:余宗桥
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1