【技术实现步骤摘要】
查重方法、装置、电子设备及计算机存储介质
[0001]本专利技术是关于查重领域,特别是关于一种查重方法、装置、电子设备及计算机存储介质。
技术介绍
[0002]随着文件管理场景的复杂化,已经无法单纯通过文件名等简单的信息,判断上传到数据库中的文件是否重复。现有技术中,通常采用哈希算法进行文件查重,但是哈希算法无法处理图片数据,当文件内容中包含图片时无法获得准确的查重结果。
[0003]因此,针对上述技术问题,有必要提供一种查重方法及装置。
技术实现思路
[0004]本专利技术的目的在于提供一种查重方法、装置、电子设备及计算机存储介质,其能够根据文件内容的内容类型,选取合适的编码方式和算法,以获得准确的查重结果。
[0005]为实现上述目的,本专利技术提供的技术方案如下:
[0006]第一方面,本专利技术提供了一种查重方法,其包括:
[0007]查重系统接收待查文件,并按内容类型提取待查文件的内容;根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量;根据所述提取内容的内容类型选取相似度算法;根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件向量的相似度,以确定所述待查文件的相似文件。
[0008]在一个或多个实施方式中,所述根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量,包括:
[0009]当所述提取内容为文本时,对所述提取内容进行3
‑
gr ...
【技术保护点】
【技术特征摘要】
1.一种查重方法,其特征在于,包括:查重系统接收待查文件,并按内容类型提取待查文件的内容;根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量;根据所述提取内容的内容类型选取相似度算法;根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件向量的相似度,以确定所述待查文件的相似文件。2.如权利要求1所述的查重方法,其特征在于,所述根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量,包括:当所述提取内容的内容类型为文本时,对所述提取内容进行3
‑
gram编码,并进行hash计算,以获取所述提取内容的特征向量;当所述提取内容的内容类型为图片时,将所述提取内容中各张图片调整为预设分辨率的RGB图像,并通过卷积神经网络提取所述提取内容的特征向量。3.如权利要求1所述的查重方法,其特征在于,所述根据所述提取内容的内容类型选取相似度算法,包括:当所述提取内容的内容类型为文本时,选取Jaccard相似度算法;当所述提取内容的内容类型为图片时,选取Cosine相似度算法。4.如权利要求1所述的查重方法,其特征在于,所述根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件向量的相似度,以确定所述待查文件的相似文件,包括:根据所述相似度算法,计算所述特征向量与向量引擎中已有文件向量的相似度;根据所述相似度对所述已有文件向量进行排序;召回所述已有文件向量中相似度大于预设阈值的相似文件向量;查询数据库已有文件中与所述召回相似文件向量关联的文件,确定为所述待查文件的相似文件。5.如权利要求1~4中任一项所述的查重方法,其特征在于,所述查重系统包括预处理模块、提取模块、编码模块、向量引擎和数据库;所述预处理模块用于接收文件并生成文件ID;所述提取模块用于按内容类型提取所述文件的内容;所述编码模块用于根据所述提取内容的内容类型选取编码方式,对所述提取内容进行编码,以获取所述提取内容的特征向量;所述向量引擎用于根据所述提取内容的内容类型,为所述特征向量创建向量索引,并将所述特征向量作为已有文件向量进行存储;所述数据库用于存储所述文件,并通过所述文件ID关联所述已有文件向量和所述文件。6.如权利要求5所述的查重方法,其特征在于,所述向量引擎在所述提取内容的内容类型为文本时,将所述特征向量转换为BINARY类型256维向量字段,为所述特征向量创建量化索引,并将所述特征向量作为已有文件向量进行存储;所述向量引擎在所述提取内容的内容类型为图片时,将所述特征向量转换为FLOAT类
型1000维向量字段,为所述特征向量创建量化索引,并将所述特征向量作为已有文件向量进行存储。7.一种查重方法,其特征在于,包括:查重系统接收待查文件,并按内容类型分页提取待查文件各页的内容;根据所述提取页的内容的内容类型选取编码方式,对所述提取页的内容进行编码,以获取所述提取页的内容的特征向量;根据所述提取页的内容的内容类型选取相似度算法;根据所述特征向量和所述相似度算法,计算所述特征向量与已有文件页向量的相似度,以确定所述待查文件的相似文件。8.如权利要求7所述的查重方法,其特征在于,...
【专利技术属性】
技术研发人员:张凯,陶提,李旭,
申请(专利权)人:上海太美数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。