当前位置: 首页 > 专利查询>武汉大学专利>正文

隐式关系推理对齐的文本图像跨模态行人检索方法及系统技术方案

技术编号:38141532 阅读:14 留言:0更新日期:2023-07-08 09:56
本发明专利技术公开了一种隐式关系推理对齐的文本图像跨模态行人检索方法及系统,首先分别利用图像编码器和文本编码器,通过自注意力和交叉注意力机制将待处理行人图像和对应的文本描述转换为特征向量表示,通过SDM损失函数对齐全局图像特征和文本特征,构建两种模态在共同特征空间内的位置关系;然后利用跨模态视觉文本交互编码器,通过掩码遮蔽建模隐式地挖掘细粒度关系,以学习有判别力的全局特征,从而进行细粒度交互;最后基于图像

【技术实现步骤摘要】
隐式关系推理对齐的文本图像跨模态行人检索方法及系统


[0001]本专利技术属于跨模态行人重识别
,涉及一种文本图像跨模态行人检索方法及系统,具体涉及一种基于隐式关系推理对齐的文本图像跨模态行人检索方法及系统。

技术介绍

[0002]近年来,文本到图像的行人检索任务受到越来越多的关注,广泛应用于无法获得目标图像场景下的公共安防等领域。文本到图像的行人检索旨在从大型图像数据库中检索出与所给文本描述内容最匹配的目标人物,是一项融合了图文检索和行人重识别的综合性任务。该任务的核心问题在于如何将文本和图像两个不同的模态数据映射到共同的潜在特征空间。
[0003]由于视觉和语言这两个模态之间存在内部特征的差异和模态异质性文本到图像行人检索任务极具挑战性。目标行人的视觉特征会受到多种因素的影响,如姿势、视角、光照等,而文本描述也会受到其描述顺序和歧义的影响。解决视觉和语言间的模态差异引起的跨模态特征对齐是本任务的核心研究问题。因此,研究人员需要探索更好的方法来获得更具有判别力的特征表示,并设计更好的跨模态匹配方法来将图像和文本对齐到联合特征空间。这是文本到图像行人检索任务的研究热点之一。
[0004]早期的文本到图像行人检索工作利用VGG和LSTM来学习视觉和文本模态的表示,并通过设计跨模态匹配损失函数将图像和文本对齐到联合特征空间。“Sepp Hochreiter and Jurgen Schmidhuber.Long short

termmemory.Neural computation,9(8):1735

1780,1997.3”(长短期记忆。Sepp Hochreiter和Jurgen Schmidhuber,神经计算,9(8):1735

1780,1997.3)
[0005]之后的一些工作使用ResNet50/101和BERT改进了特征提取主干网络,并设计了一种新的跨模态投影匹配损失,用来将全局图像

文本特征对齐至联合特征空间。(1)“Yucheng Chen,Rui Huang,Hong Chang,Chuanqi Tan,Tao Xue,and Bingpeng Ma.Cross

modal knowledge adaptation for language

based person search.IEEE Transactions on Image Processing,30:4057

4069,2021.3”(基于语言的人物搜索的跨模态知识适应。陈玉成等,IEEE Transactions on Image Processing,30:4057

4069,2021.3),(2)“Nikolaos Sarafianos,Xiang Xu,and Ioannis AKakadiaris.Adversarial representation learning for text

to

image matching.In Proceedings of the IEEE/CVF international conference on computer vision,pages5814

5824,2019.3,6”(用于文本到图像匹配的对抗性表示学习。Nikolaos Sarafianos等,IEEE/CVF计算机视觉国际研讨会论文集,第5814

5824页,2019.3,6),(3)“Ying Zhang and Huchuan Lu.Deep cross

modal projection learning for image

text matching.In Proceedings of the European conference on computer vision(ECCV),pages686

701,2018.2,3,6,7,8”(用于图像文本匹配的深度跨模态投影学习。张颖等,欧洲计算机视觉会议(ECCV)论文集,第686

701页,2018.2,3,6,7,8)。
[0006]近期的研究工作广泛地利用了额外的局部特征学习分支,有的工作还明确地使用了人体分割、身体部位信息、颜色信息和文本短语分割等外部工具。除此之外,一些工作还利用了注意力机制来进行局部特征学习,尽管这种局部匹配策略提高了检索性能,但同时也引入了无法避免的噪声,增加了检索过程中的不确定性。这些工作的局限性在于没有利用近期流行的视觉语言预训练模型,因此缺乏强大的跨模态对齐能力。
[0007]近期也出现了一些将CLIP运用到文本到图像行人检索的工作,这些工作通过使用动量对比学习框架或者细粒度信息挖掘框架来实现从CLIP迁移知识。(1)“Xiao Han,Sen He,Li Zhang,and Tao Xiang.Textbased person search with limited data.arXiv preprint arXiv:2110.10807,2021.2,3,6”(有限数据基于文本的人物搜索。肖寒等,arXiv preprint arXiv:2110.108072021.2,3,6),(2)“Shuanglin Yan,NengDong,Liyan Zhang,and Jinhui Tang.CLIP

driven fine

grained text

image person re

identification.arXiv preprint arXiv:2210.10276,2022.2,3,6,7”(CLIP驱动的细粒度文本

图像行人重识别。严双林等,arXiv preprint arXiv:2210.102762022.2,3,6,7)。
[0008]然而,这些方法仅使用了CLIP的单个图像编码器,未能成功地将完整的CLIP图像文本编码器知识迁移至文本到图像行人检索数据集,因此无法达到最佳性能。

技术实现思路

[0009]针对现有技术存在的视觉

文本特征在多模态数据间缺乏对应关系、显式局部匹配导致的模态内信息失真问题等问题,本专利技术提供了一种基于隐式关系推理对齐的文本图像跨模态行人检索方法及系统。
[0010]本专利技术的方法所采用的技术方案是:一种隐式关系推理对齐的文本图像跨模态行人检索方法,包括以下步骤:
[0011]步骤1:分别利用图像编码器和文本编码器,通过自注意力和交叉注意力机制将待处理行人图像和对应的文本描述转换为特征向量表示,通过SDM损失函数对齐全局图像特征和文本特征,构建两种模态在共同特征空间内的位置关系;
[0012]所述图像编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种隐式关系推理对齐的文本图像跨模态行人检索方法,其特征在于,包括以下步骤:步骤1:分别利用图像编码器和文本编码器,通过自注意力和交叉注意力机制将待处理行人图像和对应的文本描述转换为特征向量表示,通过SDM损失函数对齐全局图像特征和文本特征,构建两种模态在共同特征空间内的位置关系;所述图像编码器和文本编码器均包括多头自注意力层、残差连接层和前馈全连接层;所述多头自注意力层,将查询向量、键向量和值向量分别传递到多个独立的注意力头中;在每个注意力头中,查询向量与键向量点积并除以模型特征维度的平方根进行缩放,然后通过softmax函数将这些打分归一化得到权重,再使用权重将每个值向量加权求和,得到每个注意力头的输出;将多个注意力头的输出拼接在一起,并通过线性变换进行降维,最终得到多头自注意力层的输出;所述残差连接层,将在网络的多头自注意力层的输出上加入一个shortcut连接,直接连接到该层的输出;将shortcut连接的输出与该层的输出进行加和,得到该层的最终输出;所述前馈全连接层,将多头自注意力层的输出作为输入,给每个神经元随机分配权重和偏置,将每个神经元的输入与其权重值相乘,并将其相加,然后将偏置值添加到结果中,结果是一个单一的数字;之后,这个数字会被传递到激活函数中,该函数会将其映射到另一个范围内并生成最终输出;步骤2:利用跨模态视觉文本交互编码器,通过掩码遮蔽建模隐式地挖掘细粒度关系,以学习有判别力的全局特征,从而进行细粒度交互;所述跨模态视觉文本交互编码器,包括交叉注意力机制层、多头自注意力层、残差连接层和前馈全连接层;所述交叉注意力机制层,将输入向量拆分为两部分:一个用于生成查询矩阵,另一个用于生成键值矩阵;查询矩阵旨在学习每个空间位置表示,而键值矩阵则用于学习不同位置之间的相关性;然后查询矩阵应用于键值矩阵上,得到一个注意力矩阵,该注意力矩阵用于输入到交叉注意力机制的遮蔽文本特征矩阵Q和图像特征矩阵V

K的加权求和中,从而获得最终的特征表示;所述多头自注意力层,将查询向量、键向量和值向量分别传递到多个独立的注意力头中;在每个注意力头中,查询向量与键向量点积并除以模型特征维度的平方根进行缩放,然后通过softmax函数将这些打分归一化得到权重,再使用权重将每个值向量加权求和,得到每个注意力头的输出;将多个注意力头的输出拼接在一起,并通过线性变换进行降维,最终得到多头自注意力层的输出;所述残差连接层,将在网络的多头自注意力层的输出上加入一个shortcut连接,直接连接到该层的输出;将shortcut连接的输出与该层的输出进行加和,得到该层的最终输出;所述前馈全连接层,将多头自注意力层的输出作为输入,将每个神经元的输入与其权重值相乘,并将其相加,然后将偏置值添加到结果中,结果是一个单一的数字;之后,这个数字会被传递到激活函数中,该函数会将其映射到另一个范围内并生成最终输出;步骤3:基于图像

文本相似度分布匹配SDM损失,将N个图像

文本对特征的余弦相似度分布合并到KL差异中,通过最小化KL散度来实现图像文本相似度分布和标准化标签匹配分布之间对齐,实现跨模态匹配。
2.根据权利要求1所述的隐式关系推理对齐的文本图像跨模态行人检索方法,其特征在于:步骤2中所述跨模态视觉文本交互编码器,通过掩码遮蔽建模任务隐式地挖掘细粒度关系,来学习有判别力的全局特征;具体实现包括以下子步骤:步骤2.1:所述视觉文本交互编码器,由多头交叉注意力层和四层Transformer块组成;步骤2.1:所述视觉文本交互编码器,由多头交叉注意力层和四层Transformer块组成;其中表示融合图像和遮蔽文本情景化表示,LN(
·
)表示层归一化,MCA(
·
)表示多头交叉注意力机制;为一个融合了图像和遮蔽文本的表示,m指示其为被遮蔽的文本处的特征表示,N表示图像

文本表示对的总数,Tamsformer(
·
)表示将相应数据输入到Transformer中获得输出;d表示遮蔽标记的特征维度,Q为遮蔽文本特征,和为图像特征;步骤2.2:对于每个遮蔽位置使用MLP分类器来预测相应原始标记的概率;是词汇表的大小;M表示被遮蔽文本的集合;所述MLP分类器,输入向量经过多层全连接层,同时在全连接层之间加入非线性变换和Dropout层进行正则化来防止过拟合,在最后一个全连接层之后加入softmax函数,将网络的输出转化为概率分布,从而进行分类预测被遮蔽的文本单词;步骤2.3:得到IRR的目标函数步骤2.3:得到IRR的目标函数其中,表示遮蔽文本标记的集合,m
i
是预测的标记概率分布,y
i
是一个真实标签的独热向量,其中真实标签的概率为1。3.根据权利要求1所述的隐式关系推理对齐的文本图像跨模态行人检索方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:对于每个图像全局表示f
iv
,定义图像

文本表示对的集合是其中,N表示图像

文本表示对的总数;y
i,j
是真实匹配标签,y
i,j
=1表示是来自同一身份的匹配对,而y
i,j
=0表示不匹配对;设表示归一化u和v的点积;使用以下softmax函数计算匹配对的概率p
i,j
;其中,τ是控制概率分布峰值的温度超参数,匹配概率p
i,j
为小批量中f
iv
和之间的余弦相似度与f
iv
和之间的余弦相似度之和的比例;
步骤3.2:计算小批量中图像到文本的SDM损失函数步骤3.2:计算小批量中图像到文本的SDM损失函数其中,ε是一个为了避免数值溢出问题的极小值,是真正的匹配概率;p
i
||q
i
表示从p
i
到q
i
的KL散度;步骤3.3:计算双向SDM损失函数步骤3.3:计算双向SDM损失函数其中,i2t表示从图像到文本方向的匹配,t2i表示从文本到图像方向的匹配;步骤3.4:通过最小化KL散度来实现图像文本相似度分布和标准化标签匹配分布之间对齐,实现跨模态匹配。4.根据权利要求1

3任意一项所述的隐式关系推理对齐的文本图像跨模态行人检索方法,其特征在于:所述跨模态视觉文本交互编码器和所述视觉文本交互编码器组成跨模态的隐式关系推理对齐网络,所述跨模态的隐式关系推理对齐网络是训练好的网络;训练过程中采用的函数为:其中,表示IRR模型的目标函数,表示双向SDM损失函数,表示ID损失函数;其中和分别代表图像和文本分类网络对类别i输出的logits,y代表真实标签。5.一种隐式关系推理对齐...

【专利技术属性】
技术研发人员:叶茫姜定潘思甜
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1