System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于Transformer的遮挡行人重识别方法技术_技高网

一种基于Transformer的遮挡行人重识别方法技术

技术编号:41301812 阅读:4 留言:0更新日期:2024-05-13 14:48
本发明专利技术公开一种基于Transformer的遮挡行人重识别方法,涉及图像监控识别技术领域。获取待识别图像并对待识别图像进行预处理;定义可学习的语义视图;构建基于Transformer的行人重识别模型;利用得到的图像序列及定义的可学习的语义视图,对基于Transformer的行人重识别模型进行训练,得到训练完成的基于Transformer的行人重识别模型;获取一张行人图片并利用训练完成的基于Transformer的行人重识别模型进行识别得到识别结果。本发明专利技术通过Transformer做特征提取可以使模型更关注显著性特征,一定程度上降低了背景信息的干扰,通过引入Transformer的Decoder分支来辅助Encoder分支局部特征的筛选,Decoder分支关注于更有判别力行人特征,结合Encoder输出的局部特征集,将被遮挡的局部特征过滤掉,只保留显著行人特征,从而降低遮挡的干扰。

【技术实现步骤摘要】

本专利技术涉及图像监控识别,尤其涉及一种基于transformer的遮挡行人重识别方法。


技术介绍

1、行人重识别(person re-identification,简称re-id),其利用计算机视觉相关技术,在不同摄像头下对同一行人进行检索,属于图像检索的子问题。随着摄像头所处环境的不同,摄像头所采集的图片也受着许多因素的影响,如视角、光照、遮挡、尺度、姿态等。但从技术角度来说,光照、尺度以及姿态等物理因素造成的影响并不会导致采集的行人特征缺失,只有在遮挡的情况下,采集的行人特征才不完整,从而影响识别的效果。现有的针对行人重识别的工作只要可以分为三个部分,分别是手工分割、基于额外的语义信息或姿态信息以及基于transformer的方法。

2、手工分割一般是将图像或特征图分割为块状或条状,然后对分割出的图片进一步提取特征进行图像的匹配。pcb(part-based convolutional baseline)将特征图进行水平切块,按照水平方向均匀的切成6块,然后每个局部特征分别进行平均池化、降维、全连接等操作,最后通过softmax进行分类。scpnet(spatial-channel parallelism network)采用全局与局部双分支进行reid任务,局部分支是由backbone提取的特征分块后做水平池化得来,全局分支将ba ckbone提取的特征进行升维,然后将全局特征按照维度分组后,利用局部特征来监督全局特征的学习。利用手工分割的局部特征可以一定程度上减少遮挡带来的影响,但遮挡信息仍然会存在于某一局部特征中并影响模型的预测。基于额外的语义信息或姿态信息的方法一般是利用人体解析模型或人体姿态估计模型来提取额外的信息来辅助预测,fpr(foreground-awar e pyramid reconstruction)中利用了前景信息来辅助进行reid任务,其利用前景概率生成器来指导模型获取未被遮挡的行人特征,从而克服遮挡问题。horeid利用人体姿态估计模型获取人体关键点信息,根据人体关键点热力图来计算人体不同部位被遮挡的概率,降低被遮挡部位局部特征的权重,从而避免遮挡信息对模型的影响。基于额外信息的方法需要引入辅助模型,reid的效果也很大程度上依赖辅助模型的效果,并且引入辅助模型还会降低整体的运算速度。近年来,transformer在计算机视觉领域越来越受到关注,其在行人重识别任务上也展示出了它的优越性,transreid在vit的基础上构造了一个增强的baseline,其利用了transfor mer全局建模的能力有效的提取图片特征,transreid在行人重识别领域表现出了优越的性能,但是其没有对行人的遮挡情况进行处理,对遮挡情况的行人重识别精度有待提高。


技术实现思路

1、针对上述问题,本专利技术提出了一种基于transformer的遮挡行人重识别方法,解决现有的基于transformer的方案在遮挡情况下表现不佳的问题。

2、本专利技术的技术方案为:

3、一种基于transformer的遮挡行人重识别方法,包括如下步骤:

4、s1、获取待识别图像并对待识别图像进行预处理,得到图像序列;

5、s1.1、获取待识别图像并对待识别图像进行图像增强操作;所述图像增强操作包括随机翻转、随机裁剪和随机擦除操作;

6、s1.2、对图像增强后的图像进行分块得到若干个图像块,将图像块输入至线性投影层获得一组图像序列,在图像序列前端添加一个可学习类标签并对图像序列添加位置信息与摄像头id信息,获得最终的图像序列;

7、

8、其中,z0为图像序列;xcls是可学习类标签;f(·)是线性投影函数,是分割后的第i个图像块,i为图像块序号,n为图像块数量,p是图像块的位置嵌入,cid是摄像头id信息,α为超参数,用来决定摄像头id信息的嵌入权重;

9、s2、定义可学习的语义视图;

10、可学习的语义视图表示为:

11、

12、其中,t为语义视图的集合;tj表示第j个语义视图,j为语义视图的编号;d表示语义视图的维度,nv为可学习语义视图的个数;

13、s3、构建基于transformer的行人重识别模型;

14、所述基于transformer的行人重识别模型包括transformer编码器、transformer解码器和局部特征匹配模块;

15、所述transformer编码器由若干个依次连接的transformer encoder layer组成,用于从图像序列中获取全局特征与局部特征并将局部特征发送给transformer解码器。进一步地,每一个transformer encoder layer由依次连接的多头自注意力机制模块、归一化层以及多层感知机模块组成,并且多头自注意力机制模块和多层感知机模块应用残差连接;

16、所述transformer解码器由若干个依次连接的transformer decoder layer组成,用于接收输入的可学习的语义视图和transformer编码器发送的局部特征,并根据可学习的语义视图和transformer编码器发送的局部特征获取局部视图集;进一步地,每一个transformer decoder layer由依次连接的多头自注意力机制模块、多头交叉注意力机制模块、两个全连接层以及归一化层组成,且多头自注意力机制模块、多头交叉注意力机制模块以及全连接层都应用残差连接。

17、在第一个transformer decoder layer中,所述多头自注意力机制模块接收输入的可学习的语义视图,对语义视图进行自注意力计算,得到一组视图特征并发送给归一化层;所述归一化层将多头自注意力机制模块输入的一组视图特征进行归一化处理,并发送给多头交叉注意力模块;所述多头交叉注意力机制模块接收归一化后的视图特征并与编码器模块输出的最终的局部特征,将视图特征作为查询向量嵌入到解码器结构中,并将编码器输出的局部特征作为键向量与值向量做交叉注意力计算,得到一组局部视图并送给归一化层,归一化层将多头交叉注意力机制模块输入的一组局部视图进行归一化处理,并发送给全连接层;全连接层对归一化后的局部视图进行非线性处理,得到最终的局部视图;在除第一个transformer decoder layer之外的transformerdecoderlayer中,所述多头自注意力机制模块接收上一个transformer decoderlayer输出的局部视图并进行自注意力计算,得到一组视图特征并发送给归一化层;

18、所述的局部特征匹配模块用于接收transformer编码器发送的局部特征fpart和transformer解码器发送的局部视图并进行融合得到最终的视图特征集。进一步地,所述的局部特征匹配模块由余弦相似度计算模块以及特征融合模块组成,所述余弦相似度计算模块接收transformer编码器发送的局部特征fpar本文档来自技高网...

【技术保护点】

1.一种基于Transformer的遮挡行人重识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于Transformer的遮挡行人重识别方法,其特征在于,S1具体包括:

3.根据权利要求1所述的一种基于Transformer的遮挡行人重识别方法,其特征在于,S2中可学习的语义视图表示为:

4.根据权利要求1所述的一种基于Transformer的遮挡行人重识别方法,其特征在于,S3中所述基于Transformer的行人重识别模型包括Transformer编码器、Transformer解码器和局部特征匹配模块;

5.根据权利要求4所述的一种基于Transformer的遮挡行人重识别方法,其特征在于,在第一个Transformer Decoder layer中,所述多头自注意力机制模块接收输入的可学习的语义视图,对语义视图进行自注意力计算,得到一组视图特征并发送给归一化层;所述归一化层将多头自注意力机制模块输入的一组视图特征进行归一化处理,并发送给多头交叉注意力模块;所述多头交叉注意力机制模块接收归一化后的视图特征并与编码器模块输出的最终的局部特征,将视图特征作为查询向量嵌入到解码器结构中,并将编码器输出的局部特征作为键向量与值向量做交叉注意力计算,得到一组局部视图并送给归一化层,归一化层将多头交叉注意力机制模块输入的一组局部视图进行归一化处理,并发送给全连接层;全连接层对归一化后的局部视图进行非线性处理,得到最终的局部视图;在除第一个Transformer Decoder layer之外的Transformer Decoder layer中,所述多头自注意力机制模块接收上一个Transformer Decoder layer输出的局部视图并进行自注意力计算,得到一组视图特征并发送给归一化层。

6.根据权利要求1所述的一种基于Transformer的遮挡行人重识别方法,其特征在于,S4具体包括:

7.根据权利要求1所述的一种基于Transformer的遮挡行人重识别方法,其特征在于,S5具体包括:

8.根据权利要求6所述的一种基于Transformer的遮挡行人重识别方法,其特征在于,S4.3具体包括:

...

【技术特征摘要】

1.一种基于transformer的遮挡行人重识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于transformer的遮挡行人重识别方法,其特征在于,s1具体包括:

3.根据权利要求1所述的一种基于transformer的遮挡行人重识别方法,其特征在于,s2中可学习的语义视图表示为:

4.根据权利要求1所述的一种基于transformer的遮挡行人重识别方法,其特征在于,s3中所述基于transformer的行人重识别模型包括transformer编码器、transformer解码器和局部特征匹配模块;

5.根据权利要求4所述的一种基于transformer的遮挡行人重识别方法,其特征在于,在第一个transformer decoder layer中,所述多头自注意力机制模块接收输入的可学习的语义视图,对语义视图进行自注意力计算,得到一组视图特征并发送给归一化层;所述归一化层将多头自注意力机制模块输入的一组视图特征进行归一化处理,并发送给多头交叉注意力模块;所述多头交叉注意力机制模块...

【专利技术属性】
技术研发人员:顾德英张帅刘昊
申请(专利权)人:东北大学秦皇岛分校
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1