行人重识别方法技术

技术编号:38022212 阅读:8 留言:0更新日期:2023-06-30 10:49
本发明专利技术公开了一种行人重识别方法,应用于无人机场景中,以增强特征辨识度。所述行人重识别方法包括:下载无人机场景下的数据集PRAI

【技术实现步骤摘要】
行人重识别方法


[0001]本专利技术涉及行人重识别方法,应用于无人机场景中。

技术介绍

[0002]行人重识别是指从不同摄像头采集的大量行人图像中检索出特定的人,是继人脸识别之后计算机视觉领域的一个重要子课题。近年来,随着监控设备的完善和人们安全意识的提升,更多的公共场所,尤其是人流量大的场地,已经开始关注行人重识别应用。行人重识别任务在固定位置的普通摄像头中得到了广泛研究并取得了很大的成绩,但是,传统固定的摄像头因无法移动导致视野局限性,而无人机可以根据人为的规定对一定区域进行自动巡航拍照,不受环境的限制,具有极大的便利性,所以无人机场景中的行人重识别技术具有明显的优点,近年来,在学术界和工业界都得到广泛的重视,并展开了探索性研究。
[0003]但是,无人机视角下的行人重识别方法仍然存在很多挑战性,限制了其进一步发展,表现为:1)无人机在室外可拍摄20到60米不等高度的照片,拍摄到的行人图像清晰度必然受到影响,因此分辨率低是影响无人机视角下行人重识别性能的重要因素;2)在户外条件下,无人机拍摄的行人图像难免会受到不同程度的遮挡,通常被雨伞、树木、阴影和其他人等遮挡,遮挡问题也是无人机场景下行人重识别任务有待解决的问题之一;3)由于无人机视角下拍摄的图像中,人的头顶所占的面积更大,使得其它有效信息很难有效捕捉,比如裤子、鞋子、衣服等纹理信息,增加了行人重识别应用的难度。总而言之,无人机视角下的行人重识别难度要大于传统地面行人重识别。
[0004]现有的基于卷积神经网络的行人重识别方法都是基于残差网络ResNet,而ResNet由残差块堆叠而成,这就导致一些卷积层可能包含无效信息,造成了结构上的冗余。受限于卷积神经网络对于特征提取的局限性和不充分性,基于残差网络ResNet的方法无法取得理想的效果,因此,基于传统卷积神经网络的行人重识别技术,提取有辨识度特征方面能力不强,特别是在无人机场景中,行人重识别的性能更是无法保证。
[0005]近年来,身份损失ID loss和三元组损失Triplet loss结合对行人重识别网络进行训练,虽然在传统的行人重识别任务上取得了较好的成绩,但是在无人机场景下结果却不尽人意。Softmax和三元组损失都存在一些缺陷,其中,Softmax存在以下缺点:首先,随着行人类型的增多,运行时间会变慢甚至函数无法收敛;其次,Softmax的目标是尽可能最大化正确分类的概率,同时会忽略一些比较难分辨的图片,而优先拟合高质量的图片;然后,Softmax只保证类别是可分的,并不要求类内紧凑和类间分离。三元组损失存在以下缺点:首先,对于大规模数据集,图像三组的数量出现了组合爆炸,导致迭代步骤的数量显著增加;其次,三元组的选取导致数据的分布并不一定均匀,所以在模型训练过程中表现很不稳定;然后,三元组损失收敛慢,需要根据结果不断调节参数,而且三元组比分类损失更容易过拟合。因此,在分辨率更低、角度更丰富和遮挡更复杂的无人机场景中,身份损失ID loss和三元组损失Triplet loss相结合进行训练的方法很难满足应用的精度需求,非常不适合数据集大的无人机场景下的行人重识别。

技术实现思路

[0006]本专利技术的目的在于提供一种行人重识别方法,主要用于解决无人机场景中数据集清晰度低而导致提取特征辨识度低的问题。
[0007]为实现上述目的,本专利技术提供了一种行人重识别方法,应用于无人机场景中,所述行人重识别方法包括以下步骤:
[0008]步骤1:下载无人机场景下的数据集PRAI

1581,并将数据集PRAI

1581按照1:1的比例划分为训练集和测试集;
[0009]步骤2:搭建适用于无人机场景的行人重识别网络框架,主要包括三部分:数据集预处理、特征提取和计算损失,具体步骤如下:
[0010]步骤2.1:在训练之前,对输入图像进行数据增强,数据增强包括水平翻转、缩放和剪裁;
[0011]步骤2.2:在残差网络ResNet50中插入卷积块注意力模块CBAM,将预处理过的图像通过CBAM

ResNet50模块提取特征,学习特征之间的关系,获取行人的关键特征信息;
[0012]步骤2.3:损失函数由难样本挖掘三元组损失TriHard loss和加性角度间隔损失ArcFace loss组成,计算损失函数,训练网络,反向传播更新网络参数,得到训练好的行人重识别网络模型;
[0013]步骤3:进行行人重识别匹配,分别对待查询数据集Query和待匹配图像数据集Gallery提行人特征,将待查询数据集Query中的图像与待匹配图像数据集Gallery中的每一幅图像采用特征向量间的欧式距离计算相似度,将待匹配图像数据集Gallery中的图像按相似度排序得到首位命中率Rank

1与平均精确度mAP,最终实现对行人样本的重识别。
[0014]作为本专利技术的进一步改进,所述步骤1中的训练集和测试集中的行人身份ID不重复。
[0015]作为本专利技术的进一步改进,所述步骤2.1具体为:每个批次随机采样P个ID的K张预处理后的图像输入模型,先将输入图像的尺寸扩大为256
×
128,然后将这些图像填充10个像素,填充值为0,最后随机裁剪得到256
×
128的图像,并且以0.5的概率对图像做水平翻转进行数据增强。
[0016]作为本专利技术的进一步改进,所述步骤2.2具体包括:
[0017]步骤2.2.1:采用在ImageNet数据集上预训练过的ResNet50作为骨干网络,保留layer1、layer2、layer3、layer4和layer5,去除全局平均池化层和全连接层;
[0018]步骤2.2.2:将P
×
K张256
×
128大小的图片先传输到ResNet50的layer1中,经过一个7
×
7且步长为2的卷积,然后经过批归一化BN和线性整流函数Relu,再经过3
×
3且步长为2的最大池化层;
[0019]步骤2.2.3:将步骤2.2.2处理后的特征图传输到ResNet50的layer2、layer3、layer4和layer5中,以输出大小为8
×
4的特征图;
[0020]步骤2.2.4:将步骤2.2.3输出的特征图输入全局平均池化层,并展成2048维的矩阵。
[0021]作为本专利技术的进一步改进,步骤2.2.3中,layer2、layer3、layer4和layer5这四层结构大致一样,分别由3、4、6和3个瓶颈层构成,每层各包含一个下采样。
[0022]作为本专利技术的进一步改进,所述瓶颈层主要由三层组成:1
×
1、3
×
3和1
×
1卷积,
在每个瓶颈层的第二个1
×
1卷积后插入卷积块注意力模块CBAM,使用卷积块注意力模块CBAM实行的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行人重识别方法,应用于无人机场景中,其特征在于,所述行人重识别方法包括以下步骤:步骤1:下载无人机场景下的数据集PRAI

1581,并将数据集PRAI

1581按照1:1的比例划分为训练集和测试集;步骤2:搭建适用于无人机场景的行人重识别网络框架,主要包括三部分:数据集预处理、特征提取和计算损失,具体步骤如下:步骤2.1:在训练之前,对输入图像进行数据增强,数据增强包括水平翻转、缩放和剪裁;步骤2.2:在残差网络ResNet50中插入卷积块注意力模块CBAM,将预处理过的图像通过CBAM

ResNet50模块提取特征,学习特征之间的关系,获取行人的关键特征信息;步骤2.3:损失函数由难样本挖掘三元组损失TriHardloss和加性角度间隔损失ArcFaceloss组成,计算损失函数,训练网络,反向传播更新网络参数,得到训练好的行人重识别网络模型;步骤3:进行行人重识别匹配,分别对待查询数据集Query和待匹配图像数据集Gallery提行人特征,将待查询数据集Query中的图像与待匹配图像数据集Gallery中的每一幅图像采用特征向量间的欧式距离计算相似度,将待匹配图像数据集Gallery中的图像按相似度排序得到首位命中率Rank

1与平均精确度mAP,最终实现对行人样本的重识别。2.根据权利要求1所述的行人重识别方法,其特征在于:所述步骤1中的训练集和测试集中的行人身份ID不重复。3.根据权利要求1所述的行人重识别方法,其特征在于,所述步骤2.1具体为:每个批次随机采样P个ID的K张预处理后的图像输入模型,先将输入图像的尺寸扩大为256
×
128,然后将这些图像填充10个像素,填充值为0,最后随机裁剪得到256
×
128的图像,并且以0.5的概率对图像做水平翻转进行数据增强。4.根据权利要求3所述的行人重识别方法,其特征在于,所述步骤2.2具体包括:步骤2.2.1:采用在ImageNet数据集上预训练过的ResNet50作为骨干网络,保留layer1、layer2、layer3、layer4和layer5,去除全局平均池化层和全连接层;步骤2.2.2:将P
×
K张256
×
128大小的图片先传输到ResNet50的layer1中,经过一个7
×
7且步长为2的卷积,然后经过批归一化BN和线性整流函数Relu,再经过3
×
3且步长为2的最大池化层;步骤2.2.3:将步骤2.2.2处理后的特征图传输到ResNet50的layer2、layer3、layer4和layer5中,以输出大小为8
×
4的特征图;步骤2.2.4:将步骤2.2.3输出的特征图输入全局平均池化层,并展成2048维的矩阵。5.根据权利要求4所述的行人重识别方法,其特征在于:步骤2.2.3中,layer2、layer3、layer4和layer5这四层结构大致一样,分别由3、4、6和3个瓶颈层构成,每层各包含一个下采样。6.根据权利要求5所述的行人重识别方法,其特征在于:所述瓶颈层主要由三层组成:1
×
1、3
×
3和1
×
1卷积,在每个瓶颈层的第二个1
×
1卷积后插入卷积块注意力模块CBAM,使用卷积块注意力模块CBAM实行的具体步骤如下:步骤Ⅰ:将瓶颈层的第二个1
×
1卷积后输出的特征图记为F∈R
C
×
H
×
W
,其中,C表示通道
数,H表示图片长度,W表示图片宽度;步骤Ⅱ:对输入F∈R
C
×
H
×
W
按通道进行全局最大池化和均值池化,将池化后的两个一维向量送入全连接层运算后相加,生成一维通道注意力M
c
∈R
C
×1×1,再将通道注意力与输入元素相乘,得到通道注意力修正后的特征图F

;步骤Ⅲ:将F

按空间进行全局最大池化和均匀...

【专利技术属性】
技术研发人员:胡海峰张红
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1