图文匹配方法、装置、存储介质及设备制造方法及图纸

技术编号:21914061 阅读:18 留言:0更新日期:2019-08-21 12:27
本申请实施例公开了一种图文匹配方法、装置、存储介质及设备,属于计算机技术领域。所述方法包括:获取待匹配的图像和文本;根据所述图像生成候选实例特征集合;利用自注意力机制对所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,所述实例特征集合中的每个实例特征对应于所述图像中的一个物体;对所述文本进行编码,得到文本向量;根据所述实例特征集合和所述文本向量计算所述图像与所述文本之间的匹配度。本申请实施例可以简化图文匹配的实现难度以及提高图文匹配的准确率。

Graphic and Text Matching Method, Device, Storage Media and Equipment

【技术实现步骤摘要】
图文匹配方法、装置、存储介质及设备
本申请实施例涉及计算机
,特别涉及一种图文匹配方法、装置、存储介质及设备。
技术介绍
跨模态检索是一种新型的检索方式,其可以实现不同模态之间的数据检索。以图文互检索为例,用户可以输入一张图像来检索该图像的描述文本,或者,用户可以输入一个文本来检索该语句所描述的图像。以根据图像检索文本为例,服务器可以根据检索到的文本与图像之间的匹配度来生成检索结果。在计算文本与图像的匹配度时,服务器利用训练好的物体检测器提取该图像的实例特征集合;利用循环神经网络生成该文本的文本向量;利用匹配模型根据实例特征集合和文本向量计算该图像与该文本之间的匹配度。由于训练物体检测器时,需要在每张图像上标注图像中所有实例的类别和位置信息,导致训练物体检测器的难度较大;另外,物体检测器和匹配模型是分开训练的,所以,物体检测器识别出的实例特征可能并不适合供匹配模型匹配文本,从而影响图文匹配的准确率。
技术实现思路
本申请实施例提供了一种图文匹配方法、装置、存储介质及设备,用于解决物体检测器的训练难度较大,且其识别的实例特征并不适用于匹配文本,影响图文匹配的准确率的问题。所述技术方案如下:一方面,提供了一种图文匹配方法,所述方法包括:获取待匹配的图像和文本;根据所述图像生成候选实例特征集合;利用自注意力机制对所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,所述实例特征集合中的每个实例特征对应于所述图像中的一个物体或区域;对所述文本进行编码,得到文本向量;根据所述实例特征集合和所述文本向量计算所述图像与所述文本之间的匹配度。一方面,提供了一种图文匹配装置,所述装置包括:获取模块,用于获取待匹配的图像和文本;生成模块,用于根据所述获取模块获得的所述图像生成候选实例特征集合;聚合模块,用于利用自注意力机制对所述生成模块生成的所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,所述实例特征集合中的每个实例特征对应于所述图像中的一个物体或区域;编码模块,用于对所述获取模块获得的所述文本进行编码,得到文本向量;计算模块,用于根据所述聚合模块得到的所述实例特征集合和所述编码模块得到的所述文本向量计算所述图像与所述文本之间的匹配度。一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的图文匹配方法。一方面,提供了一种图文匹配设备,所述图文匹配设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如上所述的图文匹配方法。本申请实施例提供的技术方案的有益效果至少包括:通过根据图像生成候选实例特征集合,再利用自注意力机制对候选实例特征集合中的候选实例特征进行聚合,即可得到实例特征集合,再根据实例特征集合与文本向量计算图像与文本之间的匹配度,这样,可以利用自注意力机制来通过候选实例特征之间的关联性来聚合实例特征,避免通过物体检测器来获取图像的实例特征集合,既解决了训练物体检测器时需要在每张图像上标注所有实例的类别和位置信息,导致物体检测器的训练难度大的问题,从而达到了简化图文匹配的实现难度的效果;也解决了物体检测器除了输出语义信息之外还输出相应的位置信息,而位置信息对图文匹配并没有帮助,导致物体检测器识别的实例特征并不适用于匹配文本,影响图文匹配的准确率的问题,从而达到了提高图文匹配的准确率的效果。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据部分示例性实施例示出的一种检索结果的示意图;图2是根据部分示例性实施例示出的一种图文匹配系统的结构示意图;图3是本申请一个实施例提供的图文匹配方法的方法流程图;图4是本申请另一实施例提供的图文匹配方法的方法流程图;图5是本申请另一实施例提供的图文匹配系统的框图;图6是本申请一个实施例提供的图文匹配装置的结构框图;图7是本申请再一实施例提供的服务器的结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。视觉内容识别和自然语言理解是人工智能领域的两大挑战,当前比较热门的研究方向是确定图像与文字之间的交叉点,再基于该交叉点实现一些应用。比如,根据图像生成描述文本、视觉问答、根据文本生成图像、图像和文本互检索等等。本申请涉及图像和文字的互检索,其主要目的是通过给定的文字搜索相匹配的图像或通过给定的图像查询相匹配的文字。下面根据图像和文字的不同展示形态,对可能的几种应用场景进行说明。1)图像和文本的互检索文本可以是具有完整语义的一个语句或多个语句的组合。这里所说的语句可以是任意一种自然语言中的语句。当利用图像检索文本时,可以输入一张图像,再从包含至少一个文本的文本库中检索与该图像的视觉语义相匹配的文本。为了便于理解,可以以Flickr30K数据集中的4张图像作为输入,分别查询与每张图像的视觉语义最相似的5个文本,并将每张图像和基于该图像检索到的5个文本进行对应显示,得到图1所示的检索结果。需要说明的是,服务器查找到的文本可能与图像相匹配(即检索结果准确),也可能与图像不匹配(即检索结果出错),图1中用“√”表示与图像相匹配的文本,用“×”表示与图像不匹配的文本。当利用文本检索图像时,可以输入一个文本,再从包含至少一张图像的图像库中检索与该文本的文本语义相匹配的图像。2)图像和标签的互检索标签可以是一个词汇或多个词汇的组合。这里所说的词汇可以是任意一种自然语言中的词汇。当利用图像检索标签时,可以输入一张图像,再从包含至少一个标签的标签库中检索与该图像的视觉语义相匹配的标签。若将图1中的第一张图像作为输入,则检索到的标签可以是沙滩排球、比基尼、体育运动等等。当利用标签检索图像时,可以输入一个标签,再从包含至少一张图像的图像库中检索与该标签的标签语义相匹配的图像。3)视频和文本的互检索文本可以是具有完整语义的一个语句或多个语句的组合。这里所说的语句可以是任意一种自然语言中的语句。当利用视频检索文本时,可以输入一段视频,从该视频中提取各个图像帧,将每个图像帧作为输入的一张图像,再从包含至少一个文本的文本库中检索与该图像的视觉语义相匹配的文本。当利用文本检索视频时,可以输入一个文本,再从包含至少一段视频的视频库中检索包含与该文本的文本语义相匹配的图像帧的视频。4)视频和标签的互检索标签可以是一个词汇或多个词汇的组合。这里所说的词汇可以是任意一种自然语言中的词汇。当利用视频检索标签时,可以输入一段视频,从该视频中提取各个图像帧,将每个图像帧作为输入的一张图像,再从包含至少一个标签的标签库中检索与该图像的视觉语义相匹配的标签。当利用标签检索视频时,可以输入一个标签,再从包含至少一段视频的视频库中检索包含与该标签的标签语义相匹配的图像帧的视频。值得注意的是,本申请实施例可以实现在终端中,也可以实现在服务器中,还可以由终端和服务器本文档来自技高网...

【技术保护点】
1.一种图文匹配方法,其特征在于,所述方法包括:获取待匹配的图像和文本;根据所述图像生成候选实例特征集合;利用自注意力机制对所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,所述实例特征集合中的每个实例特征对应于所述图像中的一个物体或区域;对所述文本进行编码,得到文本向量;根据所述实例特征集合和所述文本向量计算所述图像与所述文本之间的匹配度。

【技术特征摘要】
1.一种图文匹配方法,其特征在于,所述方法包括:获取待匹配的图像和文本;根据所述图像生成候选实例特征集合;利用自注意力机制对所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,所述实例特征集合中的每个实例特征对应于所述图像中的一个物体或区域;对所述文本进行编码,得到文本向量;根据所述实例特征集合和所述文本向量计算所述图像与所述文本之间的匹配度。2.根据权利要求1所述的方法,其特征在于,所述利用自注意力机制对所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,包括:对于所述候选实例特征集合中的第i个候选实例特征,利用所述自注意力机制计算所述第i个候选实例特征与其余候选实例特征之间的相关性,并根据所述相关性计算基于所述第i个候选实例特征的实例特征。3.根据权利要求2所述的方法,其特征在于,当所述相关性是权重时,所述对于所述候选实例特征集合中的第i个候选实例特征,利用所述自注意力机制计算所述第i个候选实例特征与其余候选实例特征之间的相关性,并根据所述相关性计算基于所述第i个候选实例特征的实例特征,包括:对于所述候选实例特征集合中的第i个候选实例特征,计算所述第i个候选实例特征与第j个候选实例特征之间的余弦相似度,并根据所述余弦相似度计算所述第j个候选实例特征的权重,所述权重用于表示基于所述第i个候选实例特征聚合其他候选实例时对所述第j个候选实例特征的关注程度,i和j为正整数;将所述候选实例特征集合中的每个候选实例特征乘以对应的权重,将得到的各个乘积相加,得到基于所述第i个候选实例特征的实例特征。4.根据权利要求2所述的方法,其特征在于,当所述相关性是权重时,所述对于所述候选实例特征集合中的第i个候选实例特征,利用所述自注意力机制计算所述第i个候选实例特征与其余候选实例特征之间的相关性,并根据所述相关性计算基于所述第i个候选实例特征的实例特征,包括:将所述候选实例特征集合中的每个候选实例特征分别映射到第一特征空间、第二特征空间和第三特征空间中;对于所述候选实例特征集合中的第i个候选实例特征,根据所述第一特征空间中的第j个候选实例特征和所述第二特征空间中的第i个候选实例特征,计算所述第j个候选实例特征的权重,所述权重用于表示基于所述第i个候选实例特征聚合其他候选实例时对所述第j个候选实例特征的关注程度,i和j为正整数;将所述第三特征空间中的每个候选实例特征乘以对应的权重,将得到的各个乘积相加并进行残差拟合,得到基于所述第i个候选实例特征的实例特征。5.根据权利要求1所述的方法,其特征在于,所述根据所述图像生成候选实例特征集合,包括:将所述图像输入卷积神经网络中,并获取所述卷积神经网络输出的特征图;对所述特征图进行划分,将划分后得到的候选实例特征组成所述候选实例特征集合。6.根据权利要求5所述的方法,其特征在于,当所述卷积神经网络输出有n张不同尺度的特征图且n≥2时,所述方法还包括:对于所述n张特征图中的第m张特征图,获取第m+1张特征图的尺度,1≤m<n;按照所述第m+1张特征图的尺度,对基于所述第m张特征图生成的实例特征集合进行下采样,将得到的实例特征集合与基于所述第m+1张特征图生成的实例特征集合进行合并;将合并后的实例特征集合确定为基于所述第m+1张特征图最终生成的实例特征集合。7.根据权利要求1至6任一所述的方法,其特征在于,当所述文本为语句时,所述根据所述实例特征集合和所述文本向量计算所述图像与所述文本之间的匹配度,包括:对于所述实例特征集合中的第p个实例特征,计算所述第p个实例特征与所述文本向量中第q个词汇向量之间的相似度,并根据所述相似度计算所述第q个词汇向量的权重,p和q为正整数;将所述文本向量中的每个词汇向量乘以对应的权重,将得到的各个乘积相加,得到基于所述第p个实例特征的文本语义向量;计算所述第p个实例特征与所述文本语义向量之间的余弦相似度;根据所述实例特征集合中所有的特征实例与对应的文本语义向量之间的余弦相似度计算所述图像与所述文本之间的全局相似度,所述全局相似度用于指示所述图像与所述文本...

【专利技术属性】
技术研发人员:贲有成吴航昊袁春周杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1