当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于视频的外观和运动信息同步增强的行人重识别方法技术

技术编号:24458212 阅读:48 留言:0更新日期:2020-06-10 16:11
本发明专利技术公开了一种基于视频的外观和运动信息同步增强的行人重识别方法,训练时通过外观增强模块AEM、运动增强模块MEM两个模块分别增强主干网络中的行人外观和运动信息。外观增强模块AEM利用现有的大规模行人属性数据集训练得到的属性识别模型,为大规模行人视频数据集提供了属性伪标签,通过属性学习增强外观及语义信息;运动增强模块MEM通过利用视频预测模型预测行人步态信息,增强行人特征提取主干网络中的具有身份判别力的步态信息特征,提升行人重识别性能。实际应用时仅需保留行人特征提取主干网络,无需增加网络复杂度和模型大小,就能够获得更高的行人重识别性能。增强后的主干网络特征在基于视频的行人重识别任务中获得了更高的准确率。

A method of pedestrian recognition based on synchronous enhancement of appearance and motion information in video

【技术实现步骤摘要】
一种基于视频的外观和运动信息同步增强的行人重识别方法
本专利技术属于智能识别
,特别地涉及一种基于视频的外观和运动信息同步增强的行人重识别方法。在算法设计和模型训练部分涉及了深度学习技术。
技术介绍
行人重识别的任务是在于摄像机A不存在重叠区域的摄像机B中,对行人目标进行检索,重新找到在摄像机A中出现的行人目标。作为当前重要的研究方向和研究热点,行人重识别在智能监控、智慧城市、治安防治和刑侦等领域都有着广泛的应用,例如跨摄像机的行人跟踪与行为分析,嫌疑或感兴趣人员的图片检索与查询等。随着深度学习的迅速发展,越来越多的研究者采用深度神经网络来解决行人重识别的问题。而当前研究较多并且获得较高性能的主要集中于基于静态图片的行人重识别领域,它基于一张框选并截取出的静态行人图片进行特征提取,然后在候选集中进行特征匹配和相似度排序,完成检索重识别的任务。然而基于静态图片的行人重识别有较多局限性。第一,单张静态图片对于姿态变化、遮挡等影响因素非常敏感,第二,每个人的行走特性和步态都具有其身份独特性,使用单张静态图片无法捕捉到这种具有身份识别特性的步态特征。因此,越来越多的人开始将关注点放到基于视频的行人重识别方向中来。利用视频数据作为研究对象主要有以下几个优势。第一,视频数据更易从视频监控中获取,也更符合实际应用的场景;第二,视频数据中的多张图片能够较好的应对姿态变化、遮挡、光照等带来的影响;最后,视频中包含丰富的外观和运动信息,能够从多个方面提取具有身份判别力的信息,例如行人的行走步态特征。当前基于视频的行人重识别算法主要分为两大类,一类是将视频看做多张图片,即基于多图片的算法,另一类是直接对视频数据进行处理,即基于视频的算法。对于基于多图片的算法,主要利用了注意力模型来完成多张图片特征融合为整个视频序列层级特征的过程。利用注意力模型给每张图片分配一个重要性得分,根据重要性得分将多张图片进行加权组合,获得最终的特征。这类方法易于实现、占用时间和内存相对较少,然而却忽略了视频数据所能够提供的最重要的信息,即运动信息。对于基于视频的算法,很多视频分析的通用结构都被集成到了行人重识别系统中,例如光流学习,3D卷积神经网络,RNN等等。尽管这些对于时序特征提取和动作识别都有着较强的能力,但是由于行人重识别数据中仅包含一类运动类别,即行走,此时行走模式和步态中的微小差别如果没有对网络的特别设计,则很难很好的进行特征提取。近年来较为流行的步态识别虽然能够依据步态识别身份,但是其对于输入数据有着极高的处理要求,如干净的背景、序列对齐、行人轮廓分割提取等等,这些在复杂的实际监控场景下都难以实现。而针对行人重识别任务中来源于实际监控场景采样的图片,由于复杂的背景、行人检测算法的失误等因素,几乎难以将现有的步态识别算法直接应用到行人重识别任务中去。此外,现有的特征提取网络,无论是基于多张图片还是视频序列,都能够较好的完成行人外观信息的提取,然而这些信息依然缺少明确的语义特性,同时一些重要的线索也可能因此而被忽略。而人体属性学习在近年来已被证明对于行人重识别任务中外观信息和中层语义信息的提取有着极大的帮助。然而大部分相关工作都仅基于单静态图片而非视频数据。主要的原因有以下两个方面,第一,有些属性由于遮挡和姿态的变化可能仅出现在特定帧中,因此如何定义视频序列级别的属性标签较为困难;第二,现在还没有大规模的基于视频的行人数据集包含属性标签,利用人工标注将会耗费巨大的人力财力。针对上述现有的基于视频的行人重识别算法中存在的不足,以及属性学习和步态信息对于行人身份判别能力的提升,有必要进行研究,以提供一种方案,更好更充分的利用行走视频中包含的外观和步态信息,提升行人特征提取主干网络的特征提取能力,进而提升行人重识别的性能。
技术实现思路
为解决上述问题,本专利技术的目的在于提供了一种基于视频的外观和运动信息同步增强的行人重识别方法。该方法采用深度神经网络模型,利用属性学习和步态预测对行人特征提取主干网络中的外观信息和运动信息进行增强,解决了现有方法中行人特征提取主干网络对于视频数据信息利用不充分的问题,充分提升主干网络特征提取和行人重识别的性能。为实现上述目的,本专利技术的技术方案为:一种基于视频的外观和运动信息同步增强的行人重识别方法。该方法为:一种基于视频的外观和运动信息同步增强的行人重识别算法,其特征在于,对于从一段长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S={I1,I2,…,IT},对其进行以下步骤处理:步骤1:构建用于训练的特征提取网络:所述用于训练的特征提取网络包括由3D卷积深度神经网络构成的行人特征提取主干网络(BackboneNetwork),由依次连接的卷积深度神经网络和全连接层构成的外观增强模块AEM,由卷积深度神经网络构成的运动增强模块MEM,一层全局均值池化层和与其连接的全连接层;所述外观增强模块AEM、运动增强模块MEM和全局均值池化层分别与行人特征提取主干网络连接。步骤2:将行人图像序列S送入行人特征提取主干网络进行特征提取,生成主干特征图(BackboneFeatureMap)BF。将主干特征图BF作为外观增强模块AEM、运动增强模块MEM、全局均值池化层的输入,其中,外观增强模块AEM的输出为行人图像每种属性i出现概率的预测值pi,运动增强模块MEM的输出为运动特征图(BackboneFeature)fM。全连接层的输出为身份类别预测概率。对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM共同训练,利用行人外观属性信息提升主干特征图中的外观信息,并利用行人步态信息提升主干特征图中的运动信息,利用主干特征图BF通过全局均值池化层获得主干特征fs。步骤3:训练完成后,去除外观增强模块AEM和运动增强模块MEM,保留训练好的行人特征提取主干网络和全局均值池化层作为测试用特征提取网络。步骤4:在重识别过程中,将行人图像序列S输入步骤3得到的测试用特征提取网络,得到主干特征fs,通过计算两个行人图像序列主干特征fs的欧式距离作为相似性判断身份是否相同。进一步地,所述步骤2中,对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM进行共同训练,共同训练的目标函数为:L=Lid+Ltri+λALAEM+λMLMEM;其中,λA,λM是权重参数,行人身份分类损失Lid、三元组约束Ltri作用于主干特征fs,行人属性分类损失LAEM是外观增强模块AEM的目标函数。均方误差损失LMEM是运动增强模块MEM的目标函数。上述三个网络模块利用各自的目标函数进行优化,优化时各模块梯度信息均回传至行人特征提取主干网络,对行人特征提取主干网络优化更新,实现端到端的共同训练优化。进一步地,所述外观增强模块AEM采用行人属性分类损失LAEM进行监督训练,通过以下方法得到:(2.1.1)将主干特征图BF送入到外观增强模块AEM,得到行人图像序列S中每种属性i出现概率的预测值pi;(2.1.2)对每种属性i,利用属性伪标签进行二值交叉本文档来自技高网
...

【技术保护点】
1.一种基于视频的外观和运动信息同步增强的行人重识别方法,其特征在于,包括以下步骤:/n步骤1:从长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S={I

【技术特征摘要】
1.一种基于视频的外观和运动信息同步增强的行人重识别方法,其特征在于,包括以下步骤:
步骤1:从长度为T的连续视频中用矩形框将行人框选并裁切出的行人图像序列S={I1,I2,...,IT}。
步骤2:构建用于训练的特征提取网络:所述用于训练的特征提取网络包括由3D卷积深度神经网络构成的行人特征提取主干网络,由依次连接的卷积深度神经网络和全连接层构成的外观增强模块AEM,由卷积深度神经网络构成的运动增强模块MEM,一层全局均值池化层和与其连接的全连接层;所述外观增强模块AEM、运动增强模块MEM和全局均值池化层分别与行人特征提取主干网络连接。
步骤3:将行人图像序列S送入行人特征提取主干网络进行特征提取,生成主干特征图BF。将主干特征图BF作为外观增强模块AEM、运动增强模块MEM、全局均值池化层的输入,其中,外观增强模块AEM的输出为行人图像每种属性i出现概率的预测值pi,运动增强模块MEM的输出为运动特征图fM。全连接层的输出为身份类别预测概率。对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM共同训练,利用行人外观属性信息提升主干特征图中的外观信息,并利用行人步态信息提升主干特征图中的运动信息,利用主干特征图BF通过全局均值池化层获得主干特征fs。
步骤4:训练完成后,去除外观增强模块AEM和运动增强模块MEM,保留训练好的行人特征提取主干网络和全局均值池化层作为测试用特征提取网络。
步骤5:在重识别过程中,将行人图像序列S输入步骤4得到的测试用特征提取网络,得到主干特征fs,通过计算两个行人图像序列主干特征fs的欧式距离作为相似性判断身份是否相同。


2.根据权利要求1所述的方法,其特征在于,所述步骤3中,对行人特征提取主干网络、外观增强模块AEM、运动增强模块MEM进行共同训练,共同训练的目标函数为:L=Lid+Ltri+λALAEM+λMLMEM;其中,λA,λM是权重参数,为正数,行人身份分类损失Lid、三元组约束Ltri作用于主干特征fs,行人属性分类损失LAEM是外观增强模块AEM的目标函数。均方误差损失LMEM是运动增强模块MEM的目标函数。上述三个网络模块利用各自的目标函数进行优化,优化时各模块梯度信息均回传至行人特征提取主干网络,对行人特征提取主干网络优化更新,实现端到端的共同训练优化。


3.根据权利要求2所述的方法,其特征在于,外观增强模块AEM采用行人属性分类损失LAEM进行监督训练具体包括如下步骤:
(2.1.1)将主干特征图BF送入到外观增强模块AEM,得到行人图像序列S中每种属性i出现概率的预测值pi...

【专利技术属性】
技术研发人员:于慧敏李殊昭
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1