一种行人再识别方法技术

技术编号:25123677 阅读:24 留言:0更新日期:2020-08-05 02:52
本发明专利技术涉及一种行人再识别方法,包括步骤1、调整原始行人图像尺寸,进行预处理;2、将预处理后的图像输入MEMF模型进行前向传播,输出四个特征向量;3、计算一次训练的总损失;4、根据总损失进行反向传播,更新并保存网络权重;5、将网络权重作为下一次模型训练的初始网络权重,重复步骤2‑4,保存最后一次训练后的模型;6、调整检索图像和图像库中图像的大小并归一化;7、归一化后输入训练好的模型,每幅图像得到四个等维的特征表达向量;8、将每幅图像的四个特征表达向量级联作为最终特征表达向量;9、计算检索图像和图像库图像的最终特征表达向量间的欧氏距离,从小到大排序;10、根据排序,输出对应序列图像作为识别结果。

【技术实现步骤摘要】
一种行人再识别方法
本专利技术属于模式识别与计算机视觉中的图像检索领域,具体涉及利用深度学习进行有监督的行人再识别方法,特别是一种基于多级注意力嵌入和多层特征融合模型的行人再识别方法。
技术介绍
视频监控作为一种可以保留一定时间段场景信息的手段,由于具有全天候、多方位、直观等优点,目前已广泛应用于街道、商场、车站等各种场所,并逐渐成为维护公共安全和社会稳定的重要手段。据统计,我国已经建成世界上最大的视频监控网,城镇视频监控摄像头超过2500万个。视频监控联网带来了海量的监控数据,对海量监控数据进行分析尤为重要。完全依靠人工浏览的视频图像数据分析方式不仅耗费大量的人力物力,而且分析结果受人为因素影响大,效率低。智能视频分析技术可完成海量监控数据的自动分析,在计算机视觉领域获得了越来越多的关注。行人再识别(personre-identification,Re-ID)作为智能视频分析技术的重要组成部分,其在智能安防与刑事侦查中具有广阔的应用前景。行人再识别用于判断非重叠视域中拍摄到的行人是否属于同一个人,即在非重叠视域图像组成的查找数据库中,判断待识别行人是否出现,并将属于该行人的数据返回。近年来,行人再识别技术引起了学术界和工业界的广泛关注,已经成为计算机视觉领域的一个研究热点。由于行人兼具刚性和柔性物体的特性,外观易受穿着、姿态和视角变化以及光照、遮挡、环境等各种复杂因素的影响,使得行人再识别面临着巨大的技术挑战。早期的行人再识别主要依靠传统方法,主要包括人工设计特征和距离度量。随着深度学习的快速发展和大规模行人再识别数据集的发布,越来越多的研究人员将卷积神经网络(CNN)应用于行人再识别。基于深度学习的行人再识别方法通常先通过网络提取行人特征,然后根据欧氏距离度量特征间的距离,根据距离值从小到大排序,获得最佳识别结果。目前的基于深度学习的方法更多地集中在学习更好的特征表示上,大致可以分为三类:(1)全局特征表达。一些方法仅使用行人身份作为标签,并提取全局特征作为特征表达,但这容易忽略行人的细节并且性能较差。还有一些方法将学习到的行人属性(发型,服装颜色等)作为全局特征,但需要大量人工标注的标签信息,十分耗时。(2)局部特征表达。基于局部的特征表示可以更好地描述行人的细节,并且已在许多方法中得到应用。提取局部特征的典型方法是图像分割,通常将图像水平分成若干份。它可以使学习到的特征集中在某些人的细节上,但是由于行人间遮挡和背景杂波的影响,这种简单的划分通常无法将行人部位完全对应,从而在距离度量时不能获得较好的结果。尽管有些方法尝试通过关键点检测来对齐行人部位。但是这通常需要额外的技术支持(例如标记关键点),并且对齐不当会导致性能下降。(3)全局-局部特征表达。这些方法将全局和局部特征连接为最终特征表示。这种组合的特征通常在训练和测试阶段需要更多的计算,因为与单分支模型相比,这种组合存在更多的分支,从而导致运行时间变慢。
技术实现思路
本专利技术的目的在于克服以上问题,提供一种基于多级注意力嵌入和多层特征融合模型的行人再识别方法。本专利技术关注行人更具代表性的特征并通过该特征来辅助全局特征的表达,相比于其他同领域的方法具有更高的识别准确率。为达到以上目的,本专利技术采取的技术方案是:一种基于多级注意力嵌入和多层特征融合(Multi-level-attentionEmbeddingandMulti-layer-featureFusion,MEMF)模型的行人再识别方法,包括MEMF模型的训练过程和使用MEMF模型进行行人再识别的测试过程:一、MEMF模型的训练过程,具体包括以下步骤:步骤1:调整训练用的原始行人图像的尺寸,通过随机水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理。步骤2:将预处理后的图像输入MEMF模型中进行前向传播,将ResNet-50网络作为基础网络,将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重,输出四个与训练数据集中行人类别数等维的特征向量。步骤3:分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值,将得到的交叉熵损失值加和取平均值,得到交叉熵损失平均值。并对模型中的每一层权重计算特征值差正交损失,将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失。步骤4:根据步骤3得到的总损失进行反向传播,更新并保存网络权重。步骤5:将步骤4保存的网络权重作为下一次模型训练的初始网络权重,重复步骤2-4,使损失趋近于零,直至网络收敛。保存最后一次训练后的MEMF模型。二、将最后一次训练后的MEMF模型用于行人再识别的测试过程,具体包括以下步骤:步骤6:调整检索图像和图像库中的图像的大小,并进行归一化。步骤7:将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中,每幅图像将得到四个等维的特征表达向量。步骤8:将步骤7得到的每幅图像的四个特征表达向量级联作为该幅图像的最终特征表达向量。步骤9:给定一幅检索图像,计算检索图像和图像库图像的最终特征表达向量间的欧氏距离,从小到大排序。步骤10:根据欧氏距离的排序顺序,输出对应序列图像作为识别结果。步骤2的具体方法为:1)将大小为3×288×144的图像输入ResNet-50网络第一层,输出大小为64×144×72的特征图。2)将大小为64×144×72的特征图输入ResNet-50网络第二层,输出大小为256×72×36的特征图,后将大小为256×72×36的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为256×72×36的特征图。3)将改变像素值的大小为256×72×36的特征图输入ResNet-50网络第三层,输出大小为512×36×18的特征图,后将大小为512×36×18的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为512×36×18的特征图。4)将改变像素值的大小为512×36×18的特征图输入ResNet-50网络第四层,输出大小为1024×18×9的特征图,后将大小为1024×18×9的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为1024×18×9的特征图。5)将改变像素值的大小为1024×18×9的特征图输入由全局平均池化层和全局最大池化层组成的池化块中,输出一个大小为1024×1×1的特征向量。将步骤4)中输出的改变像素值的大小为1024×18×9的特征图分别输入三个不共享权重的ResNet-50网络第五层,分别输出三个大小为2048×18×9的特征图,将三个大小为2048×18×9的特征图对应输入三个多级注意力模块,将三个多级注意力模块的输出对应输入三个1×1的卷积层,再将三个1×1的卷积层的输出对应输入三个池化块,三个池化块分别输出三个大小为2048×1×1的特征向量,其与之前得到的大小为1024×1×1的特征向量共同组成四本文档来自技高网
...

【技术保护点】
1.一种行人再识别方法,其特征在于,包括如下步骤:/n步骤1:调整训练用的原始行人图像的尺寸,通过随机水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理;/n步骤2:将预处理后的图像输入MEMF模型中进行前向传播,将ResNet-50网络作为基础网络,将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重,输出四个与训练数据集中行人类别数等维的特征向量;/n步骤3:分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值,将得到的交叉熵损失值加和取平均值,得到交叉熵损失平均值;并对模型中的每一层权重计算特征值差正交损失,将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失;/n步骤4:根据步骤3得到的总损失进行反向传播,更新并保存网络权重;/n步骤5:将步骤4保存的网络权重作为下一次模型训练的初始网络权重,重复步骤2-4,使损失趋近于零,直至网络收敛;保存最后一次训练后的MEMF模型;/n步骤6:调整检索图像和图像库中的图像的大小,并进行归一化;/n步骤7:将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中,每幅图像将得到四个等维的特征表达向量;/n步骤8:将步骤7得到的每幅图像的四个特征表达向量级联作为该幅图像的最终特征表达向量;/n步骤9:给定一幅检索图像,计算检索图像和图像库图像的最终特征表达向量间的欧氏距离,从小到大排序;/n步骤10:根据欧氏距离的排序顺序,输出对应序列图像作为识别结果。/n...

【技术特征摘要】
1.一种行人再识别方法,其特征在于,包括如下步骤:
步骤1:调整训练用的原始行人图像的尺寸,通过随机水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理;
步骤2:将预处理后的图像输入MEMF模型中进行前向传播,将ResNet-50网络作为基础网络,将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重,输出四个与训练数据集中行人类别数等维的特征向量;
步骤3:分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值,将得到的交叉熵损失值加和取平均值,得到交叉熵损失平均值;并对模型中的每一层权重计算特征值差正交损失,将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失;
步骤4:根据步骤3得到的总损失进行反向传播,更新并保存网络权重;
步骤5:将步骤4保存的网络权重作为下一次模型训练的初始网络权重,重复步骤2-4,使损失趋近于零,直至网络收敛;保存最后一次训练后的MEMF模型;
步骤6:调整检索图像和图像库中的图像的大小,并进行归一化;
步骤7:将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中,每幅图像将得到四个等维的特征表达向量;
步骤8:将步骤7得到的每幅图像的四个特征表达向量级联作为该幅图像的最终特征表达向量;
步骤9:给定一幅检索图像,计算检索图像和图像库图像的最终特征表达向量间的欧氏距离,从小到大排序;
步骤10:根据欧氏距离的排序顺序,输出对应序列图像作为识别结果。


2.如权利要求1所述的行人再识别方法,其特征在于,步骤2的具体方法为:
1)将大小为3×288×144的图像输入ResNet-50网络第一层,输出大小为64×144×72的特征图;
2)将大小为64×144×72的特征图输入ResNet-50网络第二层,输出大小为256×72×36的特征图,后将大小为256×72×36的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为256×72×36的特征图;
3)将改变像素值的大小为256×72×36的特征图输入ResNet-50网络第三层,输出大小为512×36×18的特征图,后将大小为512×36×18的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为512×36×18的特征图;
4)将改变像素值的大小为512×36×18的特征图输入ResNet-50...

【专利技术属性】
技术研发人员:李艳凤孙嘉陈后金张斌
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1