【技术实现步骤摘要】
图文匹配方法、装置、存储介质及设备
本申请实施例涉及计算机
,特别涉及一种图文匹配方法、装置、存储介质及设备。
技术介绍
跨模态检索是一种新型的检索方式,其可以实现不同模态之间的数据检索。以图文互检索为例,用户可以输入一张图像来检索该图像的描述文本,或者,用户可以输入一个文本来检索该语句所描述的图像。以根据图像检索文本为例,服务器可以根据检索到的文本与图像之间的匹配度来生成检索结果。在计算文本与图像的匹配度时,服务器利用训练好的物体检测器提取该图像的实例特征集合;利用循环神经网络生成该文本的文本向量;利用匹配模型根据实例特征集合和文本向量计算该图像与该文本之间的匹配度。由于训练物体检测器时,需要在每张图像上标注图像中所有实例的类别和位置信息,导致训练物体检测器的难度较大;另外,物体检测器和匹配模型是分开训练的,所以,物体检测器识别出的实例特征可能并不适合供匹配模型匹配文本,从而影响图文匹配的准确率。
技术实现思路
本申请实施例提供了一种图文匹配方法、装置、存储介质及设备,用于解决物体检测器的训练难度较大,且其识别的实例特征并不适用于匹配文本,影响图文匹配的准确率的问题。所述技术方案如下:一方面,提供了一种图文匹配方法,所述方法包括:获取待匹配的图像和文本;根据所述图像生成候选实例特征集合;利用自注意力机制对所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,所述实例特征集合中的每个实例特征对应于所述图像中的一个物体或区域;对所述文本进行编码,得到文本向量;根据所述实例特征集合和所述文本向量计算所述图像与所述文本之间的匹配度。一方面,提供了一种 ...
【技术保护点】
1.一种图文匹配方法,其特征在于,所述方法包括:获取待匹配的图像和文本;根据所述图像生成候选实例特征集合;利用自注意力机制对所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,所述实例特征集合中的每个实例特征对应于所述图像中的一个物体或区域;对所述文本进行编码,得到文本向量;根据所述实例特征集合和所述文本向量计算所述图像与所述文本之间的匹配度。
【技术特征摘要】
1.一种图文匹配方法,其特征在于,所述方法包括:获取待匹配的图像和文本;根据所述图像生成候选实例特征集合;利用自注意力机制对所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,所述实例特征集合中的每个实例特征对应于所述图像中的一个物体或区域;对所述文本进行编码,得到文本向量;根据所述实例特征集合和所述文本向量计算所述图像与所述文本之间的匹配度。2.根据权利要求1所述的方法,其特征在于,所述利用自注意力机制对所述候选实例特征集合中的候选实例特征进行聚合,得到实例特征集合,包括:对于所述候选实例特征集合中的第i个候选实例特征,利用所述自注意力机制计算所述第i个候选实例特征与其余候选实例特征之间的相关性,并根据所述相关性计算基于所述第i个候选实例特征的实例特征。3.根据权利要求2所述的方法,其特征在于,当所述相关性是权重时,所述对于所述候选实例特征集合中的第i个候选实例特征,利用所述自注意力机制计算所述第i个候选实例特征与其余候选实例特征之间的相关性,并根据所述相关性计算基于所述第i个候选实例特征的实例特征,包括:对于所述候选实例特征集合中的第i个候选实例特征,计算所述第i个候选实例特征与第j个候选实例特征之间的余弦相似度,并根据所述余弦相似度计算所述第j个候选实例特征的权重,所述权重用于表示基于所述第i个候选实例特征聚合其他候选实例时对所述第j个候选实例特征的关注程度,i和j为正整数;将所述候选实例特征集合中的每个候选实例特征乘以对应的权重,将得到的各个乘积相加,得到基于所述第i个候选实例特征的实例特征。4.根据权利要求2所述的方法,其特征在于,当所述相关性是权重时,所述对于所述候选实例特征集合中的第i个候选实例特征,利用所述自注意力机制计算所述第i个候选实例特征与其余候选实例特征之间的相关性,并根据所述相关性计算基于所述第i个候选实例特征的实例特征,包括:将所述候选实例特征集合中的每个候选实例特征分别映射到第一特征空间、第二特征空间和第三特征空间中;对于所述候选实例特征集合中的第i个候选实例特征,根据所述第一特征空间中的第j个候选实例特征和所述第二特征空间中的第i个候选实例特征,计算所述第j个候选实例特征的权重,所述权重用于表示基于所述第i个候选实例特征聚合其他候选实例时对所述第j个候选实例特征的关注程度,i和j为正整数;将所述第三特征空间中的每个候选实例特征乘以对应的权重,将得到的各个乘积相加并进行残差拟合,得到基于所述第i个候选实例特征的实例特征。5.根据权利要求1所述的方法,其特征在于,所述根据所述图像生成候选实例特征集合,包括:将所述图像输入卷积神经网络中,并获取所述卷积神经网络输出的特征图;对所述特征图进行划分,将划分后得到的候选实例特征组成所述候选实例特征集合。6.根据权利要求5所述的方法,其特征在于,当所述卷积神经网络输出有n张不同尺度的特征图且n≥2时,所述方法还包括:对于所述n张特征图中的第m张特征图,获取第m+1张特征图的尺度,1≤m<n;按照所述第m+1张特征图的尺度,对基于所述第m张特征图生成的实例特征集合进行下采样,将得到的实例特征集合与基于所述第m+1张特征图生成的实例特征集合进行合并;将合并后的实例特征集合确定为基于所述第m+1张特征图最终生成的实例特征集合。7.根据权利要求1至6任一所述的方法,其特征在于,当所述文本为语句时,所述根据所述实例特征集合和所述文本向量计算所述图像与所述文本之间的匹配度,包括:对于所述实例特征集合中的第p个实例特征,计算所述第p个实例特征与所述文本向量中第q个词汇向量之间的相似度,并根据所述相似度计算所述第q个词汇向量的权重,p和q为正整数;将所述文本向量中的每个词汇向量乘以对应的权重,将得到的各个乘积相加,得到基于所述第p个实例特征的文本语义向量;计算所述第p个实例特征与所述文本语义向量之间的余弦相似度;根据所述实例特征集合中所有的特征实例与对应的文本语义向量之间的余弦相似度计算所述图像与所述文本之间的全局相似度,所述全局相似度用于指示所述图像与所述文本...
【专利技术属性】
技术研发人员:贲有成,吴航昊,袁春,周杰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。