【技术实现步骤摘要】
一种图文去重方法及装置
[0001]本申请涉及计算机
,尤其涉及一种图文去重方法及装置。
技术介绍
[0002]在互联网时代,信息呈爆炸式地增长,网络中通常充斥着海量的图文,并且包含有大量的重复图文;例如,一条图文被各种媒体转载、修改、编辑,得到多条相似图文。
[0003]网络中存在的大量重复图文,由于编辑方式的不同,会呈现不同的图文格式,因而需要占据大量的存储资源进行重复保存,在一定程度上造成了存储资源的浪费,因而,需要对图文进行去重处理,即将相似的、重复的图片以及文本识别出来。
[0004]相关技术下,在进行图文去重处理时,通常是对图像和文本分两路召回,每一路均基于单一维度特征进行比较,这样,图文的召回率和准确率难以平衡,可能会提高召回率的同时,降低了准确率,或者,是提高准确率的同时,降低了召回率。
技术实现思路
[0005]本申请实施例提供一种图文去重方法及装置,用以提高图文去重的召回率、准确率和效率。
[0006]一方面,本申请实施例提供的一种图文去重方法,包括: >[0007]响应于本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种图文去重方法,其特征在于,所述方法包括:响应于针对目标图文的排重请求,提取所述目标图文的图文特征集合;其中,所述图文特征集合为:所述目标图文的文本特征和图像特征;基于所述图文特征集合,对所述目标图文进行多阶段召回,得到各个阶段各自对应的召回图文集合;其中,所述多阶段召回至少包括:基于所述文本特征和所述图像特征的多模态召回;基于各个召回图文集合中的各个召回图文,各自与所述目标图文之间的关键词集合,分别确定所述各个召回图文集合各自对应的初始重复图文集合;基于各个初始重复图文集合中的各个初始重复图文,各自与所述目标图文之间的编辑距离,确定目标重复图文集合。2.如权利要求1所述的方法,其特征在于,所述基于所述图文特征集合,对所述目标图文进行多阶段召回,得到各个阶段各自对应的召回图文集合,至少包括:对所述图文特征集合中的文本特征和图像特征进行融合,得到多模态特征;基于所述多模态特征,分别获得与预设对比图文数据集中各个对比图文的多模态特征之间的第一相似度;基于各个第一相似度,对所述目标图文进行多模态召回,得到多模态阶段对应的召回图文集合。3.如权利要求2所述的方法,其特征在于,所述基于所述图文特征集合,对所述目标图文进行多阶段召回,得到各个阶段各自对应的召回图文集合,还包括以下操作中的至少一种:基于所述图文特征集合中的文本特征,分别与所述预设对比图文数据集中各个对比图文的文本特征之间的第二相似度,对所述目标图文进行文本召回,得到文本阶段对应的召回图文集合;以及基于所述图文特征集合中的图像特征,分别与所述预设对比图文数据集中各个对比图文的文本特征之间的第三相似度,对所述目标图文进行图片召回,得到图片阶段对应的召回图文集合。4.如权利要求1所述的方法,其特征在于,所述基于各个召回图文集合中的各个召回图文,各自与所述目标图文之间的关键词集合,分别确定所述各个召回图文集合各自对应的初始重复图文集合,包括:针对各个召回图文集合,分别执行以下操作:提取一个召回图文集合中,各个召回图文各自对应的第一关键词集合,以及提取所述目标图文对应的第二关键词集合;分别确定所述各个第一关键词集合,各自与所述第二关键词集合之间的交并比;根据各个交并比,对所述各个召回图文进行排序;基于排序结果,从所述各个召回图文中筛选出至少一个召回图文,得到所述一个召回图语文集合对应的初始重复图文集合。5.如权利要求4所述的方法,其特征在于,分别确定所述各个第一关键词集合,各自与所述第二关键词集合之间的交并比,包括:针对所述各个第一关键词集合,分别执行以下操作:
确定一个第一关键词集合,与所述第二关键词集合的关键词交集和关键词并集;将所述关键词交集包含的关...
【专利技术属性】
技术研发人员:安涵,陈祥,唐伟,黄展鹏,封盛,赵博,林民龙,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。