一种基于外观重建视频的行人重识别方法及相关装置制造方法及图纸

技术编号：40776596 阅读：2 留言：0更新日期：2024-03-25 20:22

本申请公开了一种基于外观重建视频的行人重识别方法及相关装置，包括：利用相邻外观重建3D卷积和多分辨率交叉注意力机制对输入的行人图像序列进行特征提取；采用多分辨率交叉注意力机制将提取的特征分为三个分支；将不同分支的值按比例融合作为最终的特征表示。本申请采用可以训练的可变形卷积对错位特征进行对齐后重建，现有方法则使用相似度进行重建，相似度变换具有较好的平移不变性和旋转不变性，但对于物体形变、遮挡、视角变化等情况下的对齐效果较差。而本申请中的方法能够在特征映射中精确地捕捉物体的空间变形信息，从而提高模型对于复杂场景下的行人特征和检测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于视频识别，涉及一种基于外观重建视频的行人重识别方法及相关装置。

技术介绍

1、行人重识别(person re-identification，re-id)是指通过多个摄像头捕捉的不重叠区域内的行人图像，对同一行人在不同摄像头下的图像进行匹配和检索，它在智能视频监控，人机交互以及机器人等不同领域中有着非常广泛的应用前景。近年来随着摄像头的普及和计算机硬件性能的进步以及公众安全意识的日益提升，在医院、银行、学校、游乐场中安装了许多的摄像头，这些摄像头在组成完善而且庞大的监控系统的同时，将大量的监控数据保存，但也使原本靠人工能够进行的行人追踪和检索变得不再可行，一方面是由于其数据量过于庞大，导致即使是专业人员也需要花费大量的时间和精力去进行处理，而且在这一过程中不可避免的会因为人的精神和身体疲劳等问题带来的错误。另一方面专业人员的处理效率也是一大问题，人不是机器，无法做到不知疲倦的进行处理，而且效率也不能一直保持不变，但是当突发事件发生时无法保证有着足够的时间供其进行检索，这样一来带来的结果往往就是时效性差，其分析出的行动轨迹等已经失去时效性，无法使用，从而导致人民的生命财产安全无法得到及时的保障，但是为了公共安全和安保等问题这些工作又必须完成。

2、为了解决上述问题，目前采用外观与姿态三维卷积(appearance-and-pose3dconvolution,ap3d)来解决行人外观错位的问题，但这种方法在实施时也面临一些挑战，尤其是在通过计算两帧间像素中的余弦相似性来定位中心帧每一个点在近邻帧中的位置时，对动态

3、在某些帧中，如果行人的某些身体部位缺失或由于遮挡、快速运动等原因导致特征不明显，传统的加权求和方法可能导致错误的特征配准。这意味着中心帧可能会被错误的特征填充，从而影响整体的识别准确性。错误配准所产生的误差可能会在后续的计算过程中累积，进一步降低识别系统的性能。在视频序列处理中，一帧的误差可能会影响到连续的多帧，造成连锁反应。

4、泛化能力差：在多变的环境和不同的场景中，这种方法的泛化能力可能有限。例如，在光照变化大、背景复杂或行人姿态多变的场景下，特征提取和配准的准确性可能会受到影响。

技术实现思路

1、本申请的目的在于解决现有技术中的问题，提供一种基于外观重建视频的行人重识别方法及相关装置。

2、为了实现上述目的，本申请采用以下技术方案予以实现：

3、第一方面，本申请提供一种基于外观重建视频的行人重识别方法，包括以下步骤：

4、利用相邻外观重建3d卷积和多分辨率交叉注意力机制对输入的行人图像序列进行特征提取；

5、采用多分辨率交叉注意力机制将提取的特征分为三个分支；

6、将不同分支的值按比例融合作为最终的特征表示。

7、第二方面，本申请提供一种基于外观重建视频的行人重识别系统，包括：

8、特征提取模块，用于利用相邻外观重建3d卷积和多分辨率交叉注意力机制对输入的行人图像序列进行特征提取；

9、特征划分模块，用于采用多分辨率交叉注意力机制将提取的特征分为三个分支；

10、特征融合模块，用于将不同分支的值按比例融合作为最终的特征表示。

11、第三方面，本申请提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

12、第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

13、与现有技术相比，本申请具有以下有益效果：

14、本申请设计的外观重建视频行人重识别方法，采用可以训练的可变形卷积对错位特征进行对齐后重建，现有方法则使用相似度进行重建，相似度变换具有较好的平移不变性和旋转不变性，但对于物体形变、遮挡、视角变化等情况下的对齐效果较差。而本申请中的方法能够在特征映射中精确地捕捉物体的空间变形信息，从而提高模型对于复杂场景下的行人特征和检测的准确率。

15、本申请对不同时刻的特征使用多种并行的注意力机制，进而能够保证提取到的特征是互补的有差异的。在特征提取的过程中，使用多种注意力机制可以确保提取到互补的特征，从而提高特征表达的多样性和丰富性。不同种类的注意力机制可以关注输入特征的不同方面，从而提取出不同的特征信息。将这些互补的特征融合在一起，可以提高特征的表达能力和鲁棒性，从而在后续的任务中取得更好的效果。

本文档来自技高网...

【技术保护点】

1.一种基于外观重建视频的行人重识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于外观重建视频的行人重识别方法，其特征在于，所述利用相邻外观重建3D卷积和多分辨率交叉注意力机制对输入的行人图像序列进行特征提取，包括：

3.根据权利要求2所述的基于外观重建视频的行人重识别方法，其特征在于，所述S1-1中，主干网络为用AVR3D分别替换掉在ResNet-50的第二个stage中第2和第4个bottleNeck中的2D卷积；在第三个stage后添加部分MRCA结构，对视频序列进行拆分，分为多个不同分辨率的分支，在不同分辨率下进行特征提取，第四个stage后添加完整的MRCA结构，对不同分支中的特征使用多种注意力机制进行互补特征的提取。

4.根据权利要求2或3所述的基于外观重建视频的行人重识别方法，其特征在于，所述S1-5中，采用步长为(3,1,1)且以(3×3×3)为核的3D卷积对特征进行重建处理。

5.根据权利要求1所述的基于外观重建视频的行人重识别方法，其特征在于，所述采用多分辨率交叉注意力机制将提取的特征分为三个分支，包括：

6.根据权利要求5所述的基于外观重建视频的行人重识别方法，其特征在于，所述三个分支分中，对高分辨特征首先进行下采样降低特征复杂度，随后使用卷积对特征进行提取，再进行形状的转换后直接加入到对应的低分辨率特征中，使低分辨率分支能够感受到高分辨率分支中提取的特征。

7.根据权利要求1所述的基于外观重建视频的行人重识别方法，其特征在于，所述将不同分支的值按比例融合作为最终的特征表示，包括：

8.一种基于外观重建视频的行人重识别系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于外观重建视频的行人重识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于外观重建视频的行人重识别方法，其特征在于，所述利用相邻外观重建3d卷积和多分辨率交叉注意力机制对输入的行人图像序列进行特征提取，包括：

3.根据权利要求2所述的基于外观重建视频的行人重识别方法，其特征在于，所述s1-1中，主干网络为用avr3d分别替换掉在resnet-50的第二个stage中第2和第4个bottleneck中的2d卷积；在第三个stage后添加部分mrca结构，对视频序列进行拆分，分为多个不同分辨率的分支，在不同分辨率下进行特征提取，第四个stage后添加完整的mrca结构，对不同分支中的特征使用多种注意力机制进行互补特征的提取。

4.根据权利要求2或3所述的基于外观重建视频的行人重识别方法，其特征在于，所述s1-5中，采用步长为(3,1,1)且以(3×3×3)为核的3d卷积对特征进行重建处理。

5.根据权利要求1所述的基于外观重建视频的行人重识别...

【专利技术属性】
技术研发人员：姜沛林，吴昊洋，李延雪，陶宇，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人