关键细节属性自适应掩膜增强的跨模态行人重识别方法技术

技术编号:38349369 阅读:9 留言:0更新日期:2023-08-02 09:29
本发明专利技术涉及一种关键细节属性自适应掩膜增强的跨模态行人重识别方法,利用单模态显著属性掩膜模块,参考同一模态中的全局上下文语义来阐明不同属性的重要性;提出了跨模态显著属性掩膜模块,通过细粒度的跨模态关系,以确定不同属性的重要性;提出了属性建模平衡模块,随机选择用于跨模态对齐的掩膜特征的图像

【技术实现步骤摘要】
关键细节属性自适应掩膜增强的跨模态行人重识别方法


[0001]本专利技术属于计算机视觉,信息检索,多模态计算,涉及一种关键细节属性自适应掩膜增强的跨模态行人重识别方法,特别涉及自适应掩膜增强关键细节属性建模的自然语言行人搜索方法。

技术介绍

[0002]基于自然语言的行人重识别是一个重要且具有挑战性的计算机视觉任务,在安防监控、智能视频分析、人员搜救等领域均具有广泛的应用。目前在提取容易学习的显著属性特征并通过显著属性进行跨模态对齐已经有了大量的研究进展,但是由于相似行人图像的显著属性往往差距较小,单独通过显著属性判断困难,突出的显著属性容易导致模型忽视其他关键细节属性等问题,模型在受到显著属性影响下,对关键细节属性建模的能力较差,难以区分相似的行人图像。对此,我们设计了显著属性掩膜方法,掩膜容易学习的显著属性,强制模型关注关键细节属性。这种强制掩膜操作带来的问题是,模型忽视容易学习的显著属性,仅关注关键细节属性,可能造成属性建模不平衡,影响检索精度。对此,我们设计了合理的方法平衡容易学习的显著属性建模与关键细节属性建模。最终,我们提出的基于关键细节属性自适应掩膜增强的跨模态行人重识别方法能够较好地关注容易学习的显著属性和关键细节属性,检索性能得到了提升。

技术实现思路

[0003]要解决的技术问题
[0004]为了避免现有技术的不足之处,本专利技术提出一种关键细节属性自适应掩膜增强的跨模态行人重识别方法。针对现有技术在跨模态行人重识别任务中遇到的忽视关键细节属性导致难以区分相似行人图像的困难,率先提出了一种基于关键细节属性自适应掩膜增强的方法,用来提升模型对关键细节属性的关注度,进而缓解模型在面对容易学习的显著属性时容易忽略关键细节属性的问题,以便获得更加准确的跨模态重识别结果。首先,利用单模态显著属性掩膜模块,参考全局上下文语义阐明不同属性的重要性;而后提出了跨模态显著属性掩膜模块,根据细粒度的跨模态关系,找到容易学习的显著属性掩膜,强制模型提高关键细节属性的建模能力;最后通过属性建模平衡模块,确保容易学习的显著属性与和关键细节属性的建模能力平衡,在不丢失对容易学习的显著属性建模能力的同时提高对关键细节属性的关注度,进而提升跨模态行人重识别的准确度。
[0005]技术方案
[0006]一种基于关键细节属性自适应掩膜增强的跨模态行人重识别方法,其特征在于步骤如下:
[0007]步骤1:在图像单模态掩膜支路中和文本单模态掩膜支路中,分别计算得到单模态显著属性掩膜的视觉特征图以及单模态显著属性掩膜的文本特征图
[0008]在图像端:
[0009]步骤a1:归一化训练集图像为统一大小,并对训练集图像进行数据增强,利用卷积网络提取图像特征,获得初始视觉特征图V;
[0010]步骤a2:在图像单模态掩膜支路中,计算初始视觉特征图V和全局视觉特征v之间的余弦相似度,获得单模态视觉相似度矩阵S
v
,其中,全局视觉特征v由初始视觉特征图V经最大池化层提取而来;
[0011]步骤a3:计算单模态视觉相似度矩阵S
v
中相似度最大的个值:
[0012][0013]其中:h
v
,w
v
分别表示视觉特征图V的高度和宽度,r
m
表示掩膜位置比例参数;
[0014]将与初始视觉特征图V的选定最大像素位置相对应的所有通道值设置为0,得到单模态显著属性掩膜的视觉特征图
[0015]在文本端:
[0016]步骤b1:统一原始训练集句子单词个数,利用现有的词向量嵌入方法将单词编码为词向量,然后,通过1
×
1卷积即文本卷积层获得初始文本特征图T;
[0017]步骤b2:计算初始文本特征图T和全局文本特征t之间的余弦相似度,获得单模态文本相似度矩阵S
t
,其中,全局文本特征t由初始文本特征图T经最大池化层提取而来;
[0018]步骤b3:计算单模态文本相似度矩阵S
t
中的相似度最大的个值:
[0019][0020]其中h
t
,w
t
分别表示文本特征图T的高度和宽度,r
m
为与图像单模态掩膜支路相同的掩膜位置比例参数;
[0021]将与初始文本特征图T的选定最大单词位置相对应的所有通道值设置为0,得到单模态显著属性掩膜的文本特征图
[0022]步骤2:在跨模态掩膜支路,计算初始视觉特征图V和初始文本特征图T之间的余弦相似度,并获得跨模态相似度矩阵S
c

[0023]步骤3:根据跨模态相似度矩阵S
c
,分别找到相似度最大的和个值,即为跨模态搜索中认为最显著的视觉和文本属性,通过引入与单模态掩膜支路相同的掩膜位置比例参数r
m
,得到其中,对应于图像中的像素数,对应于文本中的单词数;
[0024]步骤4:掩膜最显著的区域的特征值,找出S
c
中具有最大相似性的位置,该位置对应于图像中的个像素,并在整个通道中将V中的个像素设置为0,得到跨模态显著属性掩膜的视觉特征图
[0025]步骤5:将S
c
中具有最大相似性的位置对应于文本中的个单词,并在整个通道中将T中的个单词设置为0,得到跨模态显著属性掩膜的文本特征图
[0026]步骤6:采用属性建模平衡模块,在一个训练批次中随机选择一个概率的样本进行掩膜,并设置训练批次随机掩膜比例参数r
b
,最终在一个训练批次中掩膜的特征图个数为n
b

[0027][0028]其中:b表示一个训练批次的大小,表示向下取整;
[0029]步骤7:将步骤6训练的特征图输入属性建模平衡模块中的残差网络和最大池化层,得到掩膜后的特征向量;所述属性建模平衡模块为四个,其中,和V经过单模态图像属性建模平衡模块得到单模态自适应掩膜视觉特征向量V
u
,和T经过单模态文本属性建模平衡模块得到单模态自适应掩膜文本特征向量T
u
,和V经过跨模态图像属性建模平衡模块得到跨模态自适应掩膜视觉特征向量V
c
,和T经过单模态图像属性建模平衡模块得到跨模态自适应掩膜文本特征向量T
c

[0030]步骤8:分别对(V
u
,T
u
),(V
c
,T
c
)进行跨模态匹配,并采用“Adam优化算法”进行训练,直至收敛;
[0031]步骤9:测试时将图片和语句分别利用训练好的网络进行特征提取,不采用任何的掩膜操作,经图像单模态掩膜支路得到图像特征经跨模态掩膜支路得到图像特征经文本单模态掩膜支路得到文本特征经跨模态掩膜支路得到文本特征并将图像特征在通道维度拼接得到最终的视觉特征V
f
,文本特征在通道维度拼接得到文本特征T
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键细节属性自适应掩膜增强的跨模态行人重识别方法,其特征在于步骤如下:步骤1:在图像单模态掩膜支路中和文本单模态掩膜支路中,分别计算得到单模态显著属性掩膜的视觉特征图以及单模态显著属性掩膜的文本特征图在图像端:步骤a1:归一化训练集图像为统一大小,并对训练集图像进行数据增强,提取图像特征,获得初始视觉特征图V;步骤a2:在图像单模态掩膜支路中,计算初始视觉特征图V和全局视觉特征v之间的余弦相似度,获得单模态视觉相似度矩阵S
v
,其中,全局视觉特征v由初始视觉特征图V经最大池化层提取而来;步骤a3:计算单模态视觉相似度矩阵S
v
中相似度最大的个值:其中:h
v
,w
v
分别表示视觉特征图V的高度和宽度,r
m
表示掩膜位置比例参数;将与初始视觉特征图V的选定最大像素位置相对应的所有通道值设置为0,得到单模态显著属性掩膜的视觉特征图在文本端:步骤b1:统一原始训练集句子单词个数,利用现有的词向量嵌入方法将单词编码为词向量,然后,通过1
×
1卷积即文本卷积层获得初始文本特征图T;步骤b2:计算初始文本特征图T和全局文本特征t之间的余弦相似度,获得单模态文本相似度矩阵S
t
,其中,全局文本特征t由初始文本特征图T经最大池化层提取而来;步骤b3:计算单模态文本相似度矩阵S
t
中的相似度最大的个值:其中h
t
,w
t
分别表示文本特征图T的高度和宽度,r
m
为与图像单模态掩膜支路相同的掩膜位置比例参数;将与初始文本特征图T的选定最大单词位置相对应的所有通道值设置为0,得到单模态显著属性掩膜的文本特征图步骤2:在跨模态掩膜支路,计算初始视觉特征图V和初始文本特征图T之间的余弦相似度,并获得跨模态相似度矩阵S
c
;步骤3:根据跨模态相似度矩阵S
c
,分别找到相似度最大的和个值,即为跨模态搜索中认为最显著的视觉和文本属性,通过引入与单模态掩膜支路相同的掩膜位置比例参数r
m
,得到其中,对应于图像中的像素数,对应于文本中的单词数;步骤4:掩膜最显著的区域的特征值,找出S
c
中具有最大相似性的位置,该位置对应于图像中的个像素,并在整个通道中将V中的个像素设置为0,得到跨模态显著属性掩膜的视觉特征图
步骤5:将S
c
中具有最大相似性的位置对应于文...

【专利技术属性】
技术研发人员:牛凯张艳宁黄涛
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1