基于行人外观和步态信息的多模态行人身份识别方法和系统技术方案

技术编号：26172542 阅读：19 留言：0更新日期：2020-10-31 13:50

本发明专利技术提供了一种基于行人外观和步态信息的多模态行人身份识别方法和系统，利用深度卷积神经网络提取监控视频中的行人bounding box和行人轮廓；利用深度卷积神经网络从彩色行人图片序列中提取外观特征；利用深度卷积神经网络从行人轮廓图片序列中提取步态特征；基于注意力网络模型对子网络中提取的外观和步态特征进行特征融合；对融合特征计算特征间的欧式距离进行比对和评估。本发明专利技术通过充分考虑监控系统中行人身份识别存在的各种挑战，综合考虑行人的外观和步态信息，对两种信息进行端到端的提取和融合。使网络能在行人服装变化、光线变化、场景变化等干扰下更为鲁棒地识别行人的身份，具有普遍的适用性。

全部详细技术资料下载

【技术实现步骤摘要】
基于行人外观和步态信息的多模态行人身份识别方法和系统
本专利技术涉及计算机视觉
，具体地，涉及一种基于行人外观和步态信息的多模态行人身份识别方法和系统，尤其是涉及在无重叠监控摄像头下的行人身份识别技术。
技术介绍
随着人们对公共安全问题的日益重视，视频监控摄像头开始遍布到城市的每个角落，各种识别算法也在安全生产、智能安全、智能交通管理等领域得到了广泛的应用。传统的身份识别方法需要利用高清晰度人脸图像等附加信息。这些局限性使得传统的识别方法难以应用于地铁、街道等杂乱场合，或是光线较暗情况及远距离拍摄情况。与其他方法相比，利用行人的外观信息或者步态信息只需要得到日常监控摄像头中拍摄到的一张图片或者一段视频序列，就可以实现识别行人身份的目的。目前已有的研究大多局限于利用单一的外观信息或者单一的步态信息进行行人身份识别，而对多模态的行人身份识别研究较少。单纯利用行人外观图像进行身份识别的方法，难以在群体统一身穿制服或者目标行人更换衣服的情况下有效进行身份识别(参见WANGG,YUANY,CHENX,etal.“LearningDiscriminativeFeatureswithMultipleGranularitiesforPersonRe-Identification”2018ACMMM)。单纯利用行人轮廓序列中的步态信息进行身份识别的方法，又忽视了视频中的纹理、色彩等信息，在日常的应用场合中限制了其识别准确性(参见CHAOH,HEY,ZHANGJ,etal.“Gaitset:Regardinggaitasasetf

【技术保护点】
1.一种基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，包括：/n步骤S1:形成提取视频或图片中行人轮廓和行人位置的第一网络，令视频或图片中的单帧图片经过第一网络进行切割后，得到行人外观图片集合和行人轮廓图片集合；/n步骤S2：形成端到端的特征提取网络，所述特征提取网络包括外观特征提取网络、步态特征提取网络；/n步骤S3：令行人外观图片集合输入外观特征提取网络，得到外观初步特征；/n步骤S4：令行人轮廓图片集合输入步态特征提取网络，得到步态初步特征；/n步骤S5：将外观初步特征和步态初步特征进行融合，得到融合特征；/n步骤S6：基于融合特征，比对检测目标和匹配对象之间的欧式距离，得到行人身份识别结果。/n

【技术特征摘要】
1.一种基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，包括：
步骤S1:形成提取视频或图片中行人轮廓和行人位置的第一网络，令视频或图片中的单帧图片经过第一网络进行切割后，得到行人外观图片集合和行人轮廓图片集合；
步骤S2：形成端到端的特征提取网络，所述特征提取网络包括外观特征提取网络、步态特征提取网络；
步骤S3：令行人外观图片集合输入外观特征提取网络，得到外观初步特征；
步骤S4：令行人轮廓图片集合输入步态特征提取网络，得到步态初步特征；
步骤S5：将外观初步特征和步态初步特征进行融合，得到融合特征；
步骤S6：基于融合特征，比对检测目标和匹配对象之间的欧式距离，得到行人身份识别结果。

2.根据权利要求1所述的基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，所述步骤S1包括：
步骤S11：基于深度卷积神经网络，进行行人检测和轮廓提取，形成第一网络；
步骤S12：利用COCO数据集训练得到网络模型参数，将网络模型参数应用到第一网络，令第一网络进行行人轮廓分割，得到行人外观图片集合和行人轮廓图片集合。

3.根据权利要求1所述的基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，所述步骤S2包括：
步骤S21：基于深度卷积神经网络形成外观特征提取网络，外观特征提取网络是在ResNet-50模型基础上形成三个独立分支，第一独立分支采用步长为2的卷积层实现降采样，之后令输入的特征图经过全局最大池化层、1x1的卷积层、批标准化、ReLU激活函数，将2048维特征向量减小到256维特征向量；第二独立分支和第三独立分支不进行降采样，令输入的特征图水平切割成等分的两个或三个横条，将每一个切分后的横条也通过全局最大池化层、1x1的卷积层、批标准化、ReLU激活函数，得到一个256维特征向量；将六个256维的子特征级联得到1536维的外观特征。
步骤S22：基于深度卷积神经网络形成步态特征提取网络，随机抽取视频中K帧行人轮廓，使用卷积神经网络对行人轮廓序列提取步态特征，特征为512维；对于每一帧输入的轮廓图片都通过下述的卷积和池化操作得到对应的特征图；其中第一个卷积核为5×5，步长为1；第二个卷积核为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；第三个和第四个卷积核均为3×3，步长为1，紧接着的池化层大小为2×2，步长为2；最后第五个和第六个卷积核均为为3×3，步长为1；在上述结构的第一次池化层后、第二次池化层后、最后一个卷机层后分别应用Setpooling操作将独立特征图集合成一个单一的特征图；将第二次setpooling输出的特征和第三次setpooling输出的特征图分别经过池化操作得到两个128维的特征；经过全联接层映射位两个256维的特征；将两个特征级联，得到512维的步态特征。

4.根据权利要求1所述的基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，所述步骤S5包括：
步骤S51：令外观初步特征和步态初步特征进行拼接，得到高维度特征向量；
步骤S52：令高维度特征向量经过FC全联接层、ReLu层、FC全联接层和Sigmoid函数计算每个特征点的重要性权重；
步骤S53：令重要性权重与原始特征相乘后再相加，通过卷积层、BN层和ReLu层处理，形成最终的行人特征，作为融合特征。

5.根据权利要求1所述的基于行人外观和步态信息的多模态行人身份识别方法，其特征在于，所述步骤S6包括：
步骤S61：先将1536维的外观特征和512维的步态特征级联得到2048维的特征
步骤S62：将级联后的特征通过全联接层、Relu、全联接层、sigmoid层，输出得到2048维的重要性权重。
步骤S63:将重要性权重和原始级联特征相乘，之后再与原始级联特征相加，得到2048维的融合特征。

【专利技术属性】
技术研发人员：于铭扬，郑世宝，王玉，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人