查重方法、装置、电子设备及计算机存储介质制造方法及图纸

技术编号:35917529 阅读:18 留言:0更新日期:2022-12-10 11:00
本发明专利技术公开了一种查重方法、装置、电子设备及计算机存储介质,所述查重方法包括:查重系统接收待查文件,并按内容类型提取待查文件的内容;根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量;根据所述提取内容的内容类型选取相似度算法;根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件向量的相似度,以确定所述待查文件的相似文件。本发明专利技术提供的查重方法及装置,可实现对包含多种内容类型内容的文件的精准查重。容类型内容的文件的精准查重。容类型内容的文件的精准查重。

【技术实现步骤摘要】
查重方法、装置、电子设备及计算机存储介质


[0001]本专利技术是关于查重领域,特别是关于一种查重方法、装置、电子设备及计算机存储介质。

技术介绍

[0002]随着文件管理场景的复杂化,已经无法单纯通过文件名等简单的信息,判断上传到数据库中的文件是否重复。现有技术中,通常采用哈希算法进行文件查重,但是哈希算法无法处理图片数据,当文件内容中包含图片时无法获得准确的查重结果。
[0003]因此,针对上述技术问题,有必要提供一种查重方法及装置。

技术实现思路

[0004]本专利技术的目的在于提供一种查重方法、装置、电子设备及计算机存储介质,其能够根据文件内容的内容类型,选取合适的编码方式和算法,以获得准确的查重结果。
[0005]为实现上述目的,本专利技术提供的技术方案如下:
[0006]第一方面,本专利技术提供了一种查重方法,其包括:
[0007]查重系统接收待查文件,并按内容类型提取待查文件的内容;根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量;根据所述提取内容的内容类型选取相似度算法;根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件向量的相似度,以确定所述待查文件的相似文件。
[0008]在一个或多个实施方式中,所述根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量,包括:
[0009]当所述提取内容为文本时,对所述提取内容进行3

gram编码,并进行hash计算,以获取所述提取内容的特征向量;当所述提取内容为图片时,将所述提取内容中各张图片调整为预设分辨率的RGB图像,并通过卷积神经网络提取所述提取内容的特征向量。
[0010]在一个或多个实施方式中,所述根据所述提取内容的内容类型选取相似度算法,包括:
[0011]当所述提取内容为文本时,选取Jaccard相似度算法;当所述提取内容为图片时,选取Cosine相似度算法。
[0012]在一个或多个实施方式中,所述根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件向量的相似度,以确定所述待查文件的相似文件,包括:
[0013]根据所述相似度算法,计算所述特征向量与向量引擎中已有文件向量的相似度;根据所述相似度对所述已有文件向量进行排序;召回所述已有文件向量中相似度大于预设阈值的相似文件向量;查询数据库已有文件中与所述召回相似文件向量关联的文件,确定为所述待查文件的相似文件。
[0014]在一个或多个实施方式中,所述查重系统包括预处理模块、提取模块、编码模块、向量引擎和数据库;
[0015]所述预处理模块用于接收文件并生成文件ID;所述提取模块用于按内容类型提取所述文件的内容;所述编码模块用于根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量;所述向量引擎用于根据所述提取内容的内容类型,为所述特征向量创建向量索引,并将所述特征向量作为已有文件向量进行存储;所述数据库用于存储所述文件,并通过所述文件ID关联所述已有文件向量和所述文件。
[0016]在一个或多个实施方式中,所述根据所述提取内容的内容类型,为所述特征向量创建向量索引,并将所述特征向量存入向量引擎,包括:
[0017]当所述提取内容为文本时,将所述特征向量转换为BINARY类型256维向量字段,为所述特征向量创建量化索引,并将所述特征向量存入向量引擎;当所述提取内容为图片时,将所述特征向量转换为FLOAT类型1000维向量字段,为所述特征向量创建量化索引,并将所述特征向量存入向量引擎。
[0018]第二方面,本专利技术提供了另一种查重方法,其包括:
[0019]按内容类型分页提取待查文件各页的内容;根据所述提取页的内容的内容类型选取编码方式,对所述提取页的内容进行编码,以获取所述提取页的内容的特征向量;根据所述提取页的内容的内容类型选取相似度算法;根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件页向量的相似度,以确定所述待查文件的相似文件。
[0020]在一个或多个实施方式中,所述根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件页向量的相似度,以确定所述待查文件的相似文件,包括:
[0021]根据所述相似度算法,计算所述特征向量与向量引擎中已有文件页向量的相似度;根据所述相似度对所述已有文件页向量进行排序;召回所述已有文件页向量中相似度大于预设阈值的相似页向量;确定所述召回相似页向量的所属文件;计算所述召回相似页向量的所属文件与所述待查文件的文件相似度,以确定所述待查文件的相似文件。
[0022]在一个或多个实施方式中,所述计算所述召回相似页向量的所属文件与所述待查文件的文件相似度,以确定所述待查文件的相似文件,包括:
[0023]按页序计算所述待查文件的所有页向量与所述召回相似页的所属文件的所有页向量的页相似度;根据所述召回相似页的所属文件与所述待查文件的页码对应关系,对所述页相似度进行加权或降权,得到所述召回相似页向量的所属文件与所述待查文件的文件相似度;根据所述文件相似度,确定所述待查文件的相似文件。
[0024]在一个或多个实施方式中,所述根据所述文件相似度,确定所述待查文件的相似文件,包括:
[0025]根据所述文件相似度,对所述召回相似页的所属文件进行排序;筛选所述文件相似度大于预设阈值的文件,确定为所述待查文件的相似文件。
[0026]在一个或多个实施方式中,所述查重系统包括预处理模块、提取模块、编码模块、向量引擎和数据库;
[0027]所述预处理模块用于接收文件并接收文件并生成文件ID;所述提取模块用于按内容类型分页提取所述文件各页的内容;所述编码模块用于根据所述提取页的内容的内容类型选取编码方式,对所述提取页的内容进行编码,以获取所述提取页的内容的特征向量;所述向量引擎用于根据所述提取页的内容的内容类型,为所述特征向量创建向量索引,并将
所述特征向量作为已有文件页向量进行存储;所述数据库用于存储所述文件,并通过所述文件ID关联所述已有文件页向量和所述文件。
[0028]第三方面,本专利技术提供了一种查重装置,其包括提取模块、编码模块和向量引擎;提取模块用于按内容类型提取待查文件的内容;编码模块用于根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量;向量引擎用于根据所述提取内容的内容类型选取相似度算法,并根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件向量的相似度,以确定所述待查文件的相似文件。
[0029]第四方面,本专利技术提供了另一种查重装置,其包括提取模块、编码模块和向量引擎;提取模块用于按内容类型分页提取待查文件各页的内容;编码模块用于根据所述提取页的内容的内容类型选取编码方式,对所述提取页的内容进行编码,以获取所述提取页的内容的特征向量;向量引擎用于根据所述提取页的内容本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种查重方法,其特征在于,包括:查重系统接收待查文件,并按内容类型提取待查文件的内容;根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量;根据所述提取内容的内容类型选取相似度算法;根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件向量的相似度,以确定所述待查文件的相似文件。2.如权利要求1所述的查重方法,其特征在于,所述根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量,包括:当所述提取内容的内容类型为文本时,对所述提取内容进行3

gram编码,并进行hash计算,以获取所述提取内容的特征向量;当所述提取内容的内容类型为图片时,将所述提取内容中各张图片调整为预设分辨率的RGB图像,并通过卷积神经网络提取所述提取内容的特征向量。3.如权利要求1所述的查重方法,其特征在于,所述根据所述提取内容的内容类型选取相似度算法,包括:当所述提取内容的内容类型为文本时,选取Jaccard相似度算法;当所述提取内容的内容类型为图片时,选取Cosine相似度算法。4.如权利要求1所述的查重方法,其特征在于,所述根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件向量的相似度,以确定所述待查文件的相似文件,包括:根据所述相似度算法,计算所述特征向量与向量引擎中已有文件向量的相似度;根据所述相似度对所述已有文件向量进行排序;召回所述已有文件向量中相似度大于预设阈值的相似文件向量;查询数据库已有文件中与所述召回相似文件向量关联的文件,确定为所述待查文件的相似文件。5.如权利要求1~4中任一项所述的查重方法,其特征在于,所述查重系统包括预处理模块、提取模块、编码模块、向量引擎和数据库;所述预处理模块用于接收文件并生成文件ID;所述提取模块用于按内容类型提取所述文件的内容;所述编码模块用于根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量;所述向量引擎用于根据所述提取内容的内容类型,为所述特征向量创建向量索引,并将所述特征向量作为已有文件向量进行存储;所述数据库用于存储所述文件,并通过所述文件ID关联所述已有文件向量和所述文件。6.如权利要求5所述的查重方法,其特征在于,所述向量引擎在所述提取内容的内容类型为文本时,将所述特征向量转换为BINARY类型256维向量字段,为所述特征向量创建量化索引,并将所述特征向量作为已有文件向量进行存储;所述向量引擎在所述提取内容的内容类型为图片时,将所述特征向量转换为FLOAT类
型1000维向量字段,为所述特征向量创建量化索引,并将所述特征向量作为已有文件向量进行存储。7.一种查重方法,其特征在于,包括:查重系统接收待查文件,并按内容类型分页提取待查文件各页的内容;根据所述提取页的内容的内容类型选取编码方式,对所述提取页的内容进行编码,以获取所述提取页的内容的特征向量;根据所述提取页的内容的内容类型选取相似度算法;根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件页向量的相似度,以确定所述待查文件的相似文件。8.如权利要求7所述的查重方法,其特征在于,...

【专利技术属性】
技术研发人员:张凯陶提李旭
申请(专利权)人:上海太美数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1