【技术实现步骤摘要】
基于细粒度语义特征差异的图像文本匹配判别方法及系统
[0001]本专利技术属于跨模态图文检索
,涉及一种图像文本匹配判别方法及系统,具体涉及一种基于细粒度语义特征差异的图像文本匹配判别方法及系统。
技术介绍
[0002]在视觉和文本的跨模态数据交互中,对图像和文本进行相似度匹配是一项值得关注的实际应用任务。
[0003]在视觉问答(Visual Question Answering,VQA)的应用场景中,经常需要对用户提出的问题进行预先过滤,只允许与当前图像相关的有效问题被输入进VQA模型中进行预测,这时就需要将用户提出的文本问题与当前图像进行相似度匹配计算。此外,在图像描述(Image Captioning)的评估领域中,图文的相似度匹配任务也有着一定的用武之地,由于图像描述模型本身存在的问题或训练数据质量不佳,图像描述模型可能会生成与被描述图像不匹配的,存在实体错误,属性(颜色,数量,动作和位置等)错误等细粒度语义差错的描述语句,此时如何准确评估生成的描述语句与被描述的图像之间的相关性显得尤为重要,有效的判 ...
【技术保护点】
【技术特征摘要】
1.一种基于细粒度语义特征差异的图像文本匹配判别方法,其特征在于,包括以下步骤:步骤1:给定一张输入图像和对应的描述文本提取图像的视觉特征和文本的序列特征;所述图像的视觉特征集合为:其中,M表示图像的视觉特征数量,d
v
表示图像的视觉特征维度,v1,
…
,v
M
分别表示图像的M个视觉特征,表示实数集;所述文本的序列特征集合为:其中,N表示描述文本中单词的数目,d
t
表示单个词向量的维度;t1,
…
,t
N
分别表示文本中的N个单词的词向量特征;步骤2:分别将图像的视觉特征和文本的序列特征映射到联合视觉语义空间中,得到图像语义特征向量与文本语义特征向量其中d为图像语义特征向量和文本语义特征向量的维度;其中,分别表示对图像的视觉特征和文本的序列特征进行的映射操作;步骤3:将图像语义特征向量与文本语义特征向量输入到细粒度语义特征差异分析模块中,预测图像与文本是否匹配;所述细粒度语义特征差异分析模块,包括输入和输出两个全连接层以及之间的BN层,ReLU激活函数层和Dropout层;输入全连接层的输入维度为1024,输出为512维,输出全连接层输入为512维,输出维度为2;对于1024维的图文语义特征向量,输入到第一个全连接层后得到512维的特征,再经过BN层,ReLU激活函数层和Dropout层后输入到第二个全连接层后得到维度为2的向量输出,从输出中即可得到图像与文本匹配的概率。2.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法,其特征在于:步骤1中所述提取图像的视觉特征,是将bottom
‑
up attention特征提取模块用于图像的视觉区域特征提取;且训练新网络时,在前N轮训练过程中固定bottom
‑
up attention特征提取模块的参数,之后取消参数固定,在训练过程中通过反向传播更新bottom
‑
up attention特征提取模块的参数,使模块提取出的特征具有更贴合本方法的语义表达;其中,N为预设值。3.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法,其特征在于:步骤1中所述提取文本的序列特征,是将BERT特征提取模块用于文本的序列特征提取;且训练新网络时,在前M轮训练过程中固定BERT特征提取模块的参数,之后取消参数固定,在训练过程中通过反向传播更新BERT特征提取模块的参数,使模块提取出的特征具有更贴合本方法的语义表达;其中,M为预设值。4.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:对图像语义特征向量与文本语义特征向量进行相减操作,得到图像与文本的
图文语义差异特征向量f
diff
:其中,图文语义差异特征向量包含了细粒度的图文语义差异信息;步骤3.2:将图文语义差异特征向量f
diff
输入到细粒度语义特征差异分析模块中,得到输出:O=L
o
(φ(L
h
(f
diff
)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。