【技术实现步骤摘要】
隐式关系推理对齐的文本图像跨模态行人检索方法及系统
[0001]本专利技术属于跨模态行人重识别
,涉及一种文本图像跨模态行人检索方法及系统,具体涉及一种基于隐式关系推理对齐的文本图像跨模态行人检索方法及系统。
技术介绍
[0002]近年来,文本到图像的行人检索任务受到越来越多的关注,广泛应用于无法获得目标图像场景下的公共安防等领域。文本到图像的行人检索旨在从大型图像数据库中检索出与所给文本描述内容最匹配的目标人物,是一项融合了图文检索和行人重识别的综合性任务。该任务的核心问题在于如何将文本和图像两个不同的模态数据映射到共同的潜在特征空间。
[0003]由于视觉和语言这两个模态之间存在内部特征的差异和模态异质性文本到图像行人检索任务极具挑战性。目标行人的视觉特征会受到多种因素的影响,如姿势、视角、光照等,而文本描述也会受到其描述顺序和歧义的影响。解决视觉和语言间的模态差异引起的跨模态特征对齐是本任务的核心研究问题。因此,研究人员需要探索更好的方法来获得更具有判别力的特征表示,并设计更好的跨模态匹配方法来将图像和文本对齐到联合特征空间。这是文本到图像行人检索任务的研究热点之一。
[0004]早期的文本到图像行人检索工作利用VGG和LSTM来学习视觉和文本模态的表示,并通过设计跨模态匹配损失函数将图像和文本对齐到联合特征空间。“Sepp Hochreiter and Jurgen Schmidhuber.Long short
‑
termmemory.Neural computatio ...
【技术保护点】
【技术特征摘要】
1.一种隐式关系推理对齐的文本图像跨模态行人检索方法,其特征在于,包括以下步骤:步骤1:分别利用图像编码器和文本编码器,通过自注意力和交叉注意力机制将待处理行人图像和对应的文本描述转换为特征向量表示,通过SDM损失函数对齐全局图像特征和文本特征,构建两种模态在共同特征空间内的位置关系;所述图像编码器和文本编码器均包括多头自注意力层、残差连接层和前馈全连接层;所述多头自注意力层,将查询向量、键向量和值向量分别传递到多个独立的注意力头中;在每个注意力头中,查询向量与键向量点积并除以模型特征维度的平方根进行缩放,然后通过softmax函数将这些打分归一化得到权重,再使用权重将每个值向量加权求和,得到每个注意力头的输出;将多个注意力头的输出拼接在一起,并通过线性变换进行降维,最终得到多头自注意力层的输出;所述残差连接层,将在网络的多头自注意力层的输出上加入一个shortcut连接,直接连接到该层的输出;将shortcut连接的输出与该层的输出进行加和,得到该层的最终输出;所述前馈全连接层,将多头自注意力层的输出作为输入,给每个神经元随机分配权重和偏置,将每个神经元的输入与其权重值相乘,并将其相加,然后将偏置值添加到结果中,结果是一个单一的数字;之后,这个数字会被传递到激活函数中,该函数会将其映射到另一个范围内并生成最终输出;步骤2:利用跨模态视觉文本交互编码器,通过掩码遮蔽建模隐式地挖掘细粒度关系,以学习有判别力的全局特征,从而进行细粒度交互;所述跨模态视觉文本交互编码器,包括交叉注意力机制层、多头自注意力层、残差连接层和前馈全连接层;所述交叉注意力机制层,将输入向量拆分为两部分:一个用于生成查询矩阵,另一个用于生成键值矩阵;查询矩阵旨在学习每个空间位置表示,而键值矩阵则用于学习不同位置之间的相关性;然后查询矩阵应用于键值矩阵上,得到一个注意力矩阵,该注意力矩阵用于输入到交叉注意力机制的遮蔽文本特征矩阵Q和图像特征矩阵V
‑
K的加权求和中,从而获得最终的特征表示;所述多头自注意力层,将查询向量、键向量和值向量分别传递到多个独立的注意力头中;在每个注意力头中,查询向量与键向量点积并除以模型特征维度的平方根进行缩放,然后通过softmax函数将这些打分归一化得到权重,再使用权重将每个值向量加权求和,得到每个注意力头的输出;将多个注意力头的输出拼接在一起,并通过线性变换进行降维,最终得到多头自注意力层的输出;所述残差连接层,将在网络的多头自注意力层的输出上加入一个shortcut连接,直接连接到该层的输出;将shortcut连接的输出与该层的输出进行加和,得到该层的最终输出;所述前馈全连接层,将多头自注意力层的输出作为输入,将每个神经元的输入与其权重值相乘,并将其相加,然后将偏置值添加到结果中,结果是一个单一的数字;之后,这个数字会被传递到激活函数中,该函数会将其映射到另一个范围内并生成最终输出;步骤3:基于图像
‑
文本相似度分布匹配SDM损失,将N个图像
‑
文本对特征的余弦相似度分布合并到KL差异中,通过最小化KL散度来实现图像文本相似度分布和标准化标签匹配分布之间对齐,实现跨模态匹配。
2.根据权利要求1所述的隐式关系推理对齐的文本图像跨模态行人检索方法,其特征在于:步骤2中所述跨模态视觉文本交互编码器,通过掩码遮蔽建模任务隐式地挖掘细粒度关系,来学习有判别力的全局特征;具体实现包括以下子步骤:步骤2.1:所述视觉文本交互编码器,由多头交叉注意力层和四层Transformer块组成;步骤2.1:所述视觉文本交互编码器,由多头交叉注意力层和四层Transformer块组成;其中表示融合图像和遮蔽文本情景化表示,LN(
·
)表示层归一化,MCA(
·
)表示多头交叉注意力机制;为一个融合了图像和遮蔽文本的表示,m指示其为被遮蔽的文本处的特征表示,N表示图像
‑
文本表示对的总数,Tamsformer(
·
)表示将相应数据输入到Transformer中获得输出;d表示遮蔽标记的特征维度,Q为遮蔽文本特征,和为图像特征;步骤2.2:对于每个遮蔽位置使用MLP分类器来预测相应原始标记的概率;是词汇表的大小;M表示被遮蔽文本的集合;所述MLP分类器,输入向量经过多层全连接层,同时在全连接层之间加入非线性变换和Dropout层进行正则化来防止过拟合,在最后一个全连接层之后加入softmax函数,将网络的输出转化为概率分布,从而进行分类预测被遮蔽的文本单词;步骤2.3:得到IRR的目标函数步骤2.3:得到IRR的目标函数其中,表示遮蔽文本标记的集合,m
i
是预测的标记概率分布,y
i
是一个真实标签的独热向量,其中真实标签的概率为1。3.根据权利要求1所述的隐式关系推理对齐的文本图像跨模态行人检索方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:对于每个图像全局表示f
iv
,定义图像
‑
文本表示对的集合是其中,N表示图像
‑
文本表示对的总数;y
i,j
是真实匹配标签,y
i,j
=1表示是来自同一身份的匹配对,而y
i,j
=0表示不匹配对;设表示归一化u和v的点积;使用以下softmax函数计算匹配对的概率p
i,j
;其中,τ是控制概率分布峰值的温度超参数,匹配概率p
i,j
为小批量中f
iv
和之间的余弦相似度与f
iv
和之间的余弦相似度之和的比例;
步骤3.2:计算小批量中图像到文本的SDM损失函数步骤3.2:计算小批量中图像到文本的SDM损失函数其中,ε是一个为了避免数值溢出问题的极小值,是真正的匹配概率;p
i
||q
i
表示从p
i
到q
i
的KL散度;步骤3.3:计算双向SDM损失函数步骤3.3:计算双向SDM损失函数其中,i2t表示从图像到文本方向的匹配,t2i表示从文本到图像方向的匹配;步骤3.4:通过最小化KL散度来实现图像文本相似度分布和标准化标签匹配分布之间对齐,实现跨模态匹配。4.根据权利要求1
‑
3任意一项所述的隐式关系推理对齐的文本图像跨模态行人检索方法,其特征在于:所述跨模态视觉文本交互编码器和所述视觉文本交互编码器组成跨模态的隐式关系推理对齐网络,所述跨模态的隐式关系推理对齐网络是训练好的网络;训练过程中采用的函数为:其中,表示IRR模型的目标函数,表示双向SDM损失函数,表示ID损失函数;其中和分别代表图像和文本分类网络对类别i输出的logits,y代表真实标签。5.一种隐式关系推理对齐...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。