【技术实现步骤摘要】
一种行人再识别方法
本专利技术属于模式识别与计算机视觉中的图像检索领域,具体涉及利用深度学习进行有监督的行人再识别方法,特别是一种基于多级注意力嵌入和多层特征融合模型的行人再识别方法。
技术介绍
视频监控作为一种可以保留一定时间段场景信息的手段,由于具有全天候、多方位、直观等优点,目前已广泛应用于街道、商场、车站等各种场所,并逐渐成为维护公共安全和社会稳定的重要手段。据统计,我国已经建成世界上最大的视频监控网,城镇视频监控摄像头超过2500万个。视频监控联网带来了海量的监控数据,对海量监控数据进行分析尤为重要。完全依靠人工浏览的视频图像数据分析方式不仅耗费大量的人力物力,而且分析结果受人为因素影响大,效率低。智能视频分析技术可完成海量监控数据的自动分析,在计算机视觉领域获得了越来越多的关注。行人再识别(personre-identification,Re-ID)作为智能视频分析技术的重要组成部分,其在智能安防与刑事侦查中具有广阔的应用前景。行人再识别用于判断非重叠视域中拍摄到的行人是否属于同一个人,即在非重叠视域图像组成的查找数据库中,判断待识别行人是否出现,并将属于该行人的数据返回。近年来,行人再识别技术引起了学术界和工业界的广泛关注,已经成为计算机视觉领域的一个研究热点。由于行人兼具刚性和柔性物体的特性,外观易受穿着、姿态和视角变化以及光照、遮挡、环境等各种复杂因素的影响,使得行人再识别面临着巨大的技术挑战。早期的行人再识别主要依靠传统方法,主要包括人工设计特征和距离度量。随着深度学习的快速发展和 ...
【技术保护点】
1.一种行人再识别方法,其特征在于,包括如下步骤:/n步骤1:调整训练用的原始行人图像的尺寸,通过随机水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理;/n步骤2:将预处理后的图像输入MEMF模型中进行前向传播,将ResNet-50网络作为基础网络,将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重,输出四个与训练数据集中行人类别数等维的特征向量;/n步骤3:分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值,将得到的交叉熵损失值加和取平均值,得到交叉熵损失平均值;并对模型中的每一层权重计算特征值差正交损失,将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失;/n步骤4:根据步骤3得到的总损失进行反向传播,更新并保存网络权重;/n步骤5:将步骤4保存的网络权重作为下一次模型训练的初始网络权重,重复步骤2-4,使损失趋近于零,直至网络收敛;保存最后一次训练后的MEMF模型;/n步骤6:调整检索图像和图像库中的图像的大小,并进行归一化;/n步骤7:将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEM ...
【技术特征摘要】
1.一种行人再识别方法,其特征在于,包括如下步骤:
步骤1:调整训练用的原始行人图像的尺寸,通过随机水平翻转、随机裁剪、归一化和随机擦除对图像进行预处理;
步骤2:将预处理后的图像输入MEMF模型中进行前向传播,将ResNet-50网络作为基础网络,将在ImageNet图像数据集上预训练好的网络权重作为初始网络权重,输出四个与训练数据集中行人类别数等维的特征向量;
步骤3:分别计算步骤2输出的四个与训练数据集中行人类别数等维的特征向量与行人类别间的交叉熵损失值,将得到的交叉熵损失值加和取平均值,得到交叉熵损失平均值;并对模型中的每一层权重计算特征值差正交损失,将得到的特征值差正交损失与交叉熵损失平均值加权求和作为一次训练的总损失;
步骤4:根据步骤3得到的总损失进行反向传播,更新并保存网络权重;
步骤5:将步骤4保存的网络权重作为下一次模型训练的初始网络权重,重复步骤2-4,使损失趋近于零,直至网络收敛;保存最后一次训练后的MEMF模型;
步骤6:调整检索图像和图像库中的图像的大小,并进行归一化;
步骤7:将归一化后的检索图像和图像库中的图像分别输入最后一次训练后的MEMF模型中,每幅图像将得到四个等维的特征表达向量;
步骤8:将步骤7得到的每幅图像的四个特征表达向量级联作为该幅图像的最终特征表达向量;
步骤9:给定一幅检索图像,计算检索图像和图像库图像的最终特征表达向量间的欧氏距离,从小到大排序;
步骤10:根据欧氏距离的排序顺序,输出对应序列图像作为识别结果。
2.如权利要求1所述的行人再识别方法,其特征在于,步骤2的具体方法为:
1)将大小为3×288×144的图像输入ResNet-50网络第一层,输出大小为64×144×72的特征图;
2)将大小为64×144×72的特征图输入ResNet-50网络第二层,输出大小为256×72×36的特征图,后将大小为256×72×36的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为256×72×36的特征图;
3)将改变像素值的大小为256×72×36的特征图输入ResNet-50网络第三层,输出大小为512×36×18的特征图,后将大小为512×36×18的特征图输入多级注意力模块,改变每幅特征图的像素值,输出改变像素值的大小为512×36×18的特征图;
4)将改变像素值的大小为512×36×18的特征图输入ResNet-50...
【专利技术属性】
技术研发人员:李艳凤,孙嘉,陈后金,张斌,
申请(专利权)人:北京交通大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。