一种基于视频的外观和运动信息同步增强的行人重识别方法技术

技术编号：24458212 阅读：48 留言：0更新日期：2020-06-10 16:11

本发明专利技术公开了一种基于视频的外观和运动信息同步增强的行人重识别方法，训练时通过外观增强模块AEM、运动增强模块MEM两个模块分别增强主干网络中的行人外观和运动信息。外观增强模块AEM利用现有的大规模行人属性数据集训练得到的属性识别模型，为大规模行人视频数据集提供了属性伪标签，通过属性学习增强外观及语义信息；运动增强模块MEM通过利用视频预测模型预测行人步态信息，增强行人特征提取主干网络中的具有身份判别力的步态信息特征，提升行人重识别性能。实际应用时仅需保留行人特征提取主干网络，无需增加网络复杂度和模型大小，就能够获得更高的行人重识别性能。增强后的主干网络特征在基于视频的行人重识别任务中获得了更高的准确率。

A method of pedestrian recognition based on synchronous enhancement of appearance and motion information in video

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视频的外观和运动信息同步增强的行人重识别方法
本专利技术属于智能识别
，特别地涉及一种基于视频的外观和运动信息同步增强的行人重识别方法。在算法设计和模型训练部分涉及了深度学习技术。
技术介绍
行人重识别的任务是在于摄像机A不存在重叠区域的摄像机B中，对行人目标进行检索，重新找到在摄像机A中出现的行人目标。作为当前重要的研究方向和研究热点，行人重识别在智能监控、智慧城市、治安防治和刑侦等领域都有着广泛的应用，例如跨摄像机的行人跟踪与行为分析，嫌疑或感兴趣人员的图片检索与查询等。随着深度学习的迅速发展，越来越多的研究者采用深度神经网络来解决行人重识别的问题。而当前研究较多并且获得较高性能的主要集中于基于静态图片的行人重识别领域，它基于一张框选并截取出的静态行人图片进行特征提取，然后在候选集中进行特征匹配和相似度排序，完成检索重识别的任务。然而基于静态图片的行人重识别有较多局限性。第一，单张静态图片对于姿态变化、遮挡等影响因素非常敏感，第二，每个人的行走特性和步态都具有其身份独特性，使用单张静态图片无法捕捉到这种具有身份识别特性的步态特征。因此，越来越多的人开始将关注点放到基于视频的行人重识别方向中来。利用视频数据作为研究对象主要有以下几个优势。第一，视频数据更易从视频监控中获取，也更符合实际应用的场景；第二，视频数据中的多张图片能够较好的应对姿态变化、遮挡、光照等带来的影响；最后，视频中包含丰富的外观和运动信息，能够从多个方面提取具有身份判别力的信息，例如行人的行走步态特征。当前基于...

【技术保护点】
1.一种基于视频的外观和运动信息同步增强的行人重识别方法，其特征在于，包括以下步骤：/n步骤1：从长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S＝{I

【技术特征摘要】
1.一种基于视频的外观和运动信息同步增强的行人重识别方法，其特征在于，包括以下步骤：
步骤1：从长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S＝{I1，I2，...，IT}。
步骤2：构建用于训练的特征提取网络：所述用于训练的特征提取网络包括由3D卷积深度神经网络构成的行人特征提取主干网络，由依次连接的卷积深度神经网络和全连接层构成的外观增强模块AEM，由卷积深度神经网络构成的运动增强模块MEM，一层全局均值池化层和与其连接的全连接层；所述外观增强模块AEM、运动增强模块MEM和全局均值池化层分别与行人特征提取主干网络连接。
步骤3：将行人图像序列S送入行人特征提取主干网络进行特征提取，生成主干特征图BF。将主干特征图BF作为外观增强模块AEM、运动增强模块MEM、全局均值池化层的输入，其中，外观增强模块AEM的输出为行人图像每种属性i出现概率的预测值pi，运动增强模块MEM的输出为运动特征图fM。全连接层的输出为身份类别预测概率。对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM共同训练，利用行人外观属性信息提升主干特征图中的外观信息，并利用行人步态信息提升主干特征图中的运动信息，利用主干特征图BF通过全局均值池化层获得主干特征fs。
步骤4：训练完成后，去除外观增强模块AEM和运动增强模块MEM，保留训练好的行人特征提取主干网络和全局均值池化层作为测试用特征提取网络。
步骤5：在重识别过程中，将行人图像序列S输入步骤4得到的测试用特征提取网络，得到主干特征fs，通过计算两个行人图像序列主干特征fs的欧式距离作为相似性判断身份是否相同。

2.根据权利要求1所述的方法，其特征在于，所述步骤3中，对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM进行共同训练，共同训练的目标函数为：L＝Lid+Ltri+λALAEM+λMLMEM；其中，λA，λM是权重参数，为正数，行人身份分类损失Lid、三元组约束Ltri作用于主干特征fs，行人属性分类损失LAEM是外观增强模块AEM的目标函数。均方误差损失LMEM是运动增强模块MEM的目标函数。上述三个网络模块利用各自的目标函数进行优化，优化时各模块梯度信息均回传至行人特征提取主干网络，对行人特征提取主干网络优化更新，实现端到端的共同训练优化。

3.根据权利要求2所述的方法，其特征在于，外观增强模块AEM采用行人属性分类损失LAEM进行监督训练具体包括如下步骤：
(2.1.1)将主干特征图BF送入到外观增强模块AEM，得到行人图像序列S中每种属性i出现概率的预测值pi...

【专利技术属性】
技术研发人员：于慧敏，李殊昭，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人