System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于视觉Transformer的步态识别方法技术_技高网

一种基于视觉Transformer的步态识别方法技术

技术编号:40553717 阅读:12 留言:0更新日期:2024-03-05 19:13
本发明专利技术公开了一种基于视觉Transformer的步态识别方法,步骤如下:步态数据的预处理、步态黑白轮廓图特征的提取、人体关键点特征的提取、基于视觉Transformer的融合、联合多特征协同字典的步态识别。本发明专利技术引入了一种独特的联合步态骨骼特征和步态黑白轮廓图的协同识别方案,能够更加精准地提取出具有显著差异性的步态特征。同时,它还能够将多种类型的步态特征进行合理的联合和互补,充分发挥各种特征的优势。通过本发明专利技术公开的步态识别方法可以进一步应用于身份识别领域。

【技术实现步骤摘要】

本专利技术涉及计算机视觉与模式识别,具体涉及一种基于视觉transformer的步态识别方法。


技术介绍

1、生物特征识别技术是一种现代先进技术,通过识别人体相关行为特征或生物特征来进行身份认证。近年来,随着计算机视觉和人工智能技术的迅猛发展,基于生物特征的身份识别技术已经广泛应用于身份验证、人机交互、智能安防监控等领域。步态识别作为一种新兴的生物识别技术,采用人走路的姿态或足迹来进行行人身份认证或识别。与其他主流生物识别技术相比,步态识别具有不接触、非侵入、无需配合以及难以隐藏和伪装等特点。因此,步态识别被认为是一种最适合在广泛领域中推广应用的生物特征识别技术。

2、从理论上讲,可以根据人体的步态远距离识别其身份。然而,由于行走过程中存在各种限制条件,如环境因素和携带物品等影响,步态识别的结果往往不理想。在复杂背景、强烈光照或携带物品时,实现最佳步态识别结果具有挑战性。传统的步态识别方法通常使用传统摄像机记录目标的行走,大多数研究依赖非模型或基于模型的方法,利用捕获的个体轮廓进行步态分析。非模型方法计算要求较低,但对光照和背景条件敏感,当目标携带物品或出现遮挡时,不准确的步态轮廓成为研究难题。另一方面,基于模型的方法计算复杂度较高,提供的有效信息有限。使用kinect作为步态捕获工具有助于解决光照和背景等问题,并可利用红外深度传感器进行自动背景减除,即使目标穿着裙子或大衣,也能识别人体关节位置。目前,基于kinect的步态识别方法可以区分为基于骨骼模型和深度图像的方法。

3、骨骼模型法是指根据人体关键关节点构建一个骨骼模型,并将人体骨骼模型的移动特征或骨骼特征作为步态特征进行识别。此类方法的主要通过深度学习模型hr-net去得到人体的17个关节点,关节点位置的准确性是整个方法的关键。因为整个骨骼模型就是17个3d关节点坐标组成的,因此这种方法的特征基本都是与关节点相关的,如长度、角度、距离或点坐标,有着建模简单,计算量小,高效等优势。但是当数据量增大的时候,单凭骨骼信息提取的特征的显著差异性会降低,例如相同身高范围的人会增多,缺乏代表性。

4、深度图像法是指通过深度学习的方法,对步态多种输入进行特征的提取,通过计算不同人的步态之间的距离,来判断人的标签。首先是对人的步态特征进行存储,保存在一个数据库中。紧接着,我们对即将来的步态数据进行特征的提取,得到最后的特征,与数据库中的特征进行对比,如果距离最近的,即为该标签的人。这类的方法的缺点是深度图像数据量大,需要存储的容量会很大。


技术实现思路

1、本专利技术的目的是为了解决当前步态识别方法在实际应用场景中由于步态数据库样本数量不足以及样本涉及被遮挡因素类型有限所导致的识别精度显著下降的难题,提供一种基于视觉transformer的步态识别方法。

2、本专利技术的目的可以通过采取如下技术方案达到:

3、一种基于视觉transformer的步态识别方法,所述步态识别方法包括:

4、s1、采集步态视频得到步态数据集,对视频进行预处理操作,获得相应类别的步态序列,包括正常行走步态序列、背包行走步态序列和穿外套行走步态序列;

5、s2、将上述步态序列进行二维姿态估计得到人体关键点序列;

6、s3、将上述步态序列输入第一步态识别网络进行特征提取得到二维图像步态特征;

7、s4、将上述人体关键点序列输入第二步态识别网络进行特征提取得到二维人体关键点特征;

8、s5、将上述二维图像步态特征输入到视觉transformer中得到基于自注意力图像步态特征;-

9、s6、将上述二维人体关键点特征和基于自注意力图像步态特征沿第二维通道维度进行拼接操作,得到融合步态特征;

10、s7、将融合步态特征与步态数据集中多个步态序列的融合步态特征之间进行特征相似度计算得到相似度最高的样本id,该样本id为融合步态特征对应的预测标签。

11、进一步地,所述步态识别方法还包括训练步骤,过程如下:

12、通过三元损失函数ltri和交叉熵损失函数lcla分别乘以对应系数再相加得到总损失函数l,其中,三元损失函数ltri通过融合步态特征计算得到,交叉熵损失函数lcla通过融合步态特征对应的预测标签计算得到,通过对融合步态特征和融合步态特征对应的预测标签进行计算得到总损失函数l,然后将总损失函数l与事先指定的阈值进行比较,当总损失函数l大于阈值时,重复步骤s1到s7进行迭代训练,直至总损失函数l小于等于阈值时完成训练。其中,采用两种损失函数可以增强步态识别方法的表达能力,学习到区别性更好的特征以及良好的识别能力。

13、进一步地,所述步骤s1中对步态视频进行预处理操作,过程如下:

14、对步态视频进行分帧操作得到单帧图像;

15、对处理后的单帧图像裁剪为指定尺寸大小。

16、固定了图像的尺寸可以解决输入图像大小不一致的问题,并提高计算的效率和识别方法的鲁棒性。示例性的,尺寸大小为64×44。

17、进一步地,所述第一步态识别网络的结构为顺序连接的卷积层conv-1、卷积层conv-2、卷积层conv-3、池化层maxpool-1、卷积层conv-4、卷积层conv-5、池化层maxpool-2、卷积层conv-6和卷积层conv-7,卷积层conv-3输出浅层阶段的步态特征,卷积层conv-5输出中层阶段的步态特征,卷积层conv-7输出深层阶段的步态特征,将浅层阶段、中层阶段和深层阶段的步态特征作为二维图像步态特征。其中,池化层可以减少网络的参数数量以及降低计算量。池化层的原理是通过在特定大小的池化窗口内选择最大值来降低特征图的尺寸。具体而言,池化窗口在特征图上滑动,每次选择窗口内的最大值作为输出。最大池化可以帮助提取强调区域的特征。

18、进一步地,所述第二步态识别网络的结构为顺序连接的卷积层conv1_1、bn层conv1_1_bn、relu层conv1_1_relu、卷积层conv1_2、bn层conv1_2_bn、relu层conv1_2_relu、卷积层conv1_3、bn层conv1_3_bn、relu层conv1_3_relu、卷积层conv1_4、bn层conv1_4_bn、relu层conv1_4_relu、卷积层conv1_5、bn层conv1_5_bn、relu层conv1_5_relu、卷积层conv1_6、bn层conv1_6_bn、relu层conv1_6_relu、池化层max1_1、线性层linear1_1、bn层linear1_1_bn、线性层linear1_2,将输出作为二维人体关键点特征。其中,relu层可以避免梯度消失以及加快网络的训练时间。relu层的工作原理是将负值设为0,而对于正值,则保持不变。其中,bn层解决了网络的参数敏感性问题,参数敏感性问题可能会带来不稳定性和识别的性能下降。

19、进一步地,所述视觉transf本文档来自技高网...

【技术保护点】

1.一种基于视觉Transformer的步态识别方法,其特征在于,所述步态识别方法包括:

2.根据权利要求1所述的一种基于视觉Transformer的步态识别方法,其特征在于,所述步态识别方法还包括训练步骤,过程如下:

3.根据权利要求1所述的一种基于视觉Transformer的步态识别方法,其特征在于,所述步骤S1中对步态视频进行预处理操作,过程如下:

4.根据权利要求1所述的一种基于视觉Transformer的步态识别方法,其特征在于,所述第一步态识别网络的结构为顺序连接的卷积层Conv-1、卷积层Conv-2、卷积层Conv-3、池化层Maxpool-1、卷积层Conv-4、卷积层Conv-5、池化层Maxpool-2、卷积层Conv-6和卷积层Conv-7,卷积层Conv-3输出浅层阶段的步态特征,卷积层Conv-5输出中层阶段的步态特征,卷积层Conv-7输出深层阶段的步态特征,将浅层阶段、中层阶段和深层阶段的步态特征作为二维图像步态特征。

5.根据权利要求1所述的一种基于视觉Transformer的步态识别方法,其特征在于,所述第二步态识别网络的结构为顺序连接的卷积层conv1_1、BN层conv1_1_bn、Relu层conv1_1_relu、卷积层conv1_2、BN层conv1_2_bn、Relu层conv1_2_relu、卷积层conv1_3、BN层conv1_3_bn、Relu层conv1_3_relu、卷积层conv1_4、BN层conv1_4_bn、Relu层conv1_4_relu、卷积层conv1_5、BN层conv1_5_bn、Relu层conv1_5_relu、卷积层conv1_6、BN层conv1_6_bn、Relu层conv1_6_relu、池化层max1_1、线性层Linear1_1、BN层Linear1_1_bn、线性层Linear1_2,将输出作为二维人体关键点特征。

6.根据权利要求1所述的一种基于视觉Transformer的步态识别方法,其特征在于,所述视觉Transformer包括自注意力模块、BN层和线性层,首先,对二维图像步态特征进行向量化操作得到N个向量组成的矩阵,然后将N个向量组成的矩阵依次通过自注意力模块、线性层和BN层得到基于自注意力图像步态特征;

7.根据权利要求2所述的一种基于视觉Transformer的步态识别方法,其特征在于,所述总损失函数L=aLtri+bLcla,其中a和b分别为三元损失函数Ltri和交叉熵损失函数Lcla对应的权重;

8.根据权利要求1所述的一种基于视觉Transformer的步态识别方法,其特征在于,所述步骤S6过程如下:

...

【技术特征摘要】

1.一种基于视觉transformer的步态识别方法,其特征在于,所述步态识别方法包括:

2.根据权利要求1所述的一种基于视觉transformer的步态识别方法,其特征在于,所述步态识别方法还包括训练步骤,过程如下:

3.根据权利要求1所述的一种基于视觉transformer的步态识别方法,其特征在于,所述步骤s1中对步态视频进行预处理操作,过程如下:

4.根据权利要求1所述的一种基于视觉transformer的步态识别方法,其特征在于,所述第一步态识别网络的结构为顺序连接的卷积层conv-1、卷积层conv-2、卷积层conv-3、池化层maxpool-1、卷积层conv-4、卷积层conv-5、池化层maxpool-2、卷积层conv-6和卷积层conv-7,卷积层conv-3输出浅层阶段的步态特征,卷积层conv-5输出中层阶段的步态特征,卷积层conv-7输出深层阶段的步态特征,将浅层阶段、中层阶段和深层阶段的步态特征作为二维图像步态特征。

5.根据权利要求1所述的一种基于视觉transformer的步态识别方法,其特征在于,所述第二步态识别网络的结构为顺序连接的卷积层conv1_1、bn层conv1_1_bn、relu层conv1_1_relu、卷积层conv1_2、bn层conv1_2_bn...

【专利技术属性】
技术研发人员:陈欣陈奇真郭雅琦邓小玲兰玉彬龙拥兵
申请(专利权)人:华南农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1