【技术实现步骤摘要】
基于Transformer的多尺度行人重识别方法
[0001]本文专利技术涉及行人重识别技术,具体来讲是一种基于Transformer的多尺度行人重识别方法,属于计算机视觉领域。
技术介绍
[0002]行人重识别旨在对不同摄像头捕获的行人图像进行关联,实现跨摄像头跨场景下的行人识别与检索,被广泛应用于智能监控领域。近年来,基于深度卷积网络的行人重识别方法取得了优秀的成果,但CNN受限于每次只能处理相邻特征并且在下采样等过程中容易丢失行人的细粒度特征,造成识别率的下降。同时,Transformer展现出对空间和序列数据的优秀建模能力。与CNN相比,Transformer移去了下采样操作,能保留更多的细粒度特征。
[0003]大多数基于Transformer的行人重识别方法,通常将整张图片分割后作为图片序列送入Transformer网络,然后使用全局token作为行人特征。然而,采用直接分割图片的方式既忽略了部分结构信息,也使得transformer网络收敛速度慢;将单一尺度的行人特征划分为特征序列后作为transformer网络的输入,忽略了行人特征的多尺度表达;在网络输出部分,丰富的行人局部特征仍未得到充分利用,而这部分特征提供了对行人重识别至关重要的细粒度信息。
[0004]基于上述,本专利技术提出了一种基于Transformer的多尺度行人重识别方法,利用多个尺度的图像特征所包含的丰富信息来优化对行人图像的特征提取。
技术实现思路
[0005]本专利技术的目的是针对现有技术的不足, ...
【技术保护点】
【技术特征摘要】
1.基于Transformer的多尺度行人重识别方法,其特征在于包括以下步骤:步骤一,在残差网络ResNet50中引入特征级联分支,将相邻层不同尺度的特征图进行特征融合;步骤二,将步骤一中融合后各个不同尺度的特征图进行特征分割,然后为每一个分割后的特征组加上可学习的[SCALE_TOKEN]表示不同尺度;将不同尺度分割后的各个子图展平,再加上表示位置的[POS_TOKEN]和全局特征[CLS_TOKEN],作为transformer的输入;步骤三,构建基于标准Transformer的行人特征提取网络,将步骤二中获得的特征子图向量输入网络,获得行人特征;步骤四,将步骤三得到特征进行切分,将[CLS_TOKEN]向量作为全局特征,同时将不同尺度的局部特征输入局部特征多尺度融合模块并重新切分得到最终特征;步骤五,使用步骤四中得到的[CLS_TOKEN]向量和多尺度融合向量按照训练策略训练,得到最终的ReID模型;步骤六,将待查询图片和测试集图片输入最终的ReID模型进行特征提取,对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片。2.根据权利要求1所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤一,包括以下子步骤:步骤1
‑
1,采用在ImageNet上预训练过的ResNet50作为骨干网络,保留第一个池化后的阶段和主干部分的前三个阶段,去除最后的阶段、空间下采样操作、全局平均池化层和完全连接层;步骤1
‑
2,从ResNet50中获得步骤1
‑
1中保留的一共4个阶段的特征信息,并构建多尺度特征级联模块,通过相邻层之间的两两融合获得行人特征信息;首先对阶段1获得的特征进行上采样和1x1卷积,特征图大小变为原来的两倍;然后对阶段1和阶段2、阶段2和阶段3、阶段3和阶段4的特征进行特征融合,如公式(1)(2)所示;F
sc
=Contact(UpSample(F
s
),F
b
)
ꢀꢀꢀꢀ
(1)F
agg
=conv1×1(F
sc
)
ꢀꢀꢀꢀ
(2)其中F
s
,F
b
表示两个需要融合的特征,UpSample表示上采样操作,Contact为向量连接操作,F
agg
为获得的融合特征。3.根据权利要求2所述的一种基于Transformer的多尺度行人重识别方法,其特征在于,所述步骤二,包括以下子步骤:步骤2
‑
1,对于获得的融合特征F
agg
,按照子特征图大小ps进行分割,生成特征图序列N为可分割的数量,再对x
P
加上一个可学习的[SCALE_TOKEN],[SCALE_TOKEN]的维度大小与x
P
相同,如公式(3)所示:其中为第k个尺度生成的特征图序列;E
scale
为[SCALE_TOKEN],表示可学习的特征尺度;综上对步骤1
‑
2中获得的三个尺度的特征处理后加上[CLS_TOKEN]和[POS_TOKEN]可得到特征Z,如公式(9)所示;
其中,x
cls
为[CLS_TOKEN]全局特征向量;分别为三个尺度的特征序列;E
pos
为[POS_TOKEN],表示空间位置。4.根据权利要...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。