一种基于多尺度、多粒度行人重识别方法技术

技术编号:32851740 阅读:16 留言:0更新日期:2022-03-30 19:08
本发明专利技术针对传统行人重识别网络在严重遮挡和杂乱背景情况下所提取特征的辨识力不足的缺陷,提出了一种基于多尺度和多粒度的重识别方法。根据行人重识别任务的特点,端到端的提取全局特征和局部特征,同时引入了空间掩膜在像素层级上来调节提取特征的权重,并利用多任务学习的思想设计了损失函数,提高复杂场景下网络的识别精度和鲁棒性。下网络的识别精度和鲁棒性。下网络的识别精度和鲁棒性。

【技术实现步骤摘要】
一种基于多尺度、多粒度行人重识别方法


[0001]涉及计算机视觉、模式识别、深度学习等领域,具体是一种在跨摄像机不同视频中的实现行人匹配方法。

技术介绍

[0002]行人重识别作为计算机视觉领域的一个重要研究方向,其目标是判断图像或者视频中是否存在特定行人,即给定一个行人图像,检索跨摄像机下的该行人图像。行人重识别通常也被视为图像检索的子问题,在视频监控、场景分析和智能交通等方面都发挥着重要的作用。
[0003]近年来,深度学习技术已广泛应用于行人重识别领域,其研究主要集中于(行人的)特征表述和度量学习。文献(Person re-identificationin the wild[C]//CVPR.2017:1367

1376.)首先提出利用深度残差网络提取行人图像的整体特征,但在复杂的交通场景下(如遮挡、杂乱背景等)整体特征的鲁棒性较差。可以使用整体特征和局部特征相结合的方法来提高特征表述的鲁棒性。例如,最近提出的重识别网络 PGFA,(Pose-Guided Feature Alignment for Occluded PersonRe-Identification[C]//ICCV.2019:542-551.)使用了整体+局部特征的融合特征,其局域特征依赖于人体特征点检测来提供人体的部位信息,但跨摄像机情况下人体部位会发生显著的变化,进而降低局部特征的辨识力。深度度量学习的研究主要体现在损失函数的设计方面。传统上,对于分类问题通常采用交叉熵损失。文献(In Defense of the TripletLoss for Person Re-Identification[J].arXiv:1703.07737,2017.)提出使用三元组损失函数,其训练目标是缩小同类样本之间的距离、扩大不同类样本之间的距离。目前,结合交叉熵损失和三元组损失来训练行人重识别网络已经成为了一种常态;但是,这两个损失函数间的平衡很少被讨论。本专利从上述理论出发,针对PGFA等主流网络在复杂场景下所提取的特征辨识力不足的缺陷,提出了一种基于多尺度多粒度的行人重识别方法,提高在严重遮挡和背景杂乱的情况下的行人重识别精度。

技术实现思路

[0004]本专利技术的目的,在于针对传统行人重识别网络在严重遮挡和杂乱背景情况下所提取特征的辨识力不足的缺陷,提出了一种基于多尺度和多粒度的重识别方法。根据行人重识别任务的特点,端到端的提取全局特征和局部特征,同时引入了空间掩膜在像素层级上来调节提取特征的权重,并利用多任务学习的思想设计了损失函数,提高复杂场景下网络的识别精度和鲁棒性。
[0005]具体的技术方案为:一种基于多尺度、多粒度行人重识别方法,其特征在于,包括如下步骤:
[0006]步骤1,图像数据预处理:对跨摄像机的行人图片进行预处理;
[0007]步骤2,尺度特征提取:将步骤1预处理后的图形数据送入所设计的卷积神经网络,
从网络的不同层级获取不同尺度的特征图,使用特征金字塔技术融合不同尺度的特征图,即通过横向连接和上采样技术,将不同层级的特征图相加融合;
[0008]步骤3,掩膜提取:在步骤2的融合结构的横向连接中增加空间注意力和通道注意力,首先使用通道注意力机制学习不同通道的特征图权重;然后使用空间注意力机制学习特征图像素级别上的区域权重,得到空间掩膜,改善背景杂乱对行人重识别性能的影响;
[0009]步骤4,粒度特征提取:对步骤2所得到的不同尺度的特征图进行分块处理,可以得到不同粒度的特征图,能够改善遮挡对行人重识别性能的影响,最终可以得到多尺度的多粒度的整体特征图;
[0010]步骤5,损失函数计算:对步骤4获得的整体特征图进行全局平局池化,然后做L2正则化处理,最终计算基于难例挖掘的三元组损失;对步骤4获得所有的特征图做批量正则化处理,与数据标注的身份信息计算交叉熵损失;对步骤3中的不同尺度的空间掩膜计算L2损失,作为掩膜正则化项;将行人重识别任务看作是前面提到的三个任务的组合,通过最大化同方差不确定性的最大高斯似然推导多任务损失函数,得到最终的损失,对整个网络模型进行训练,不断地迭代优化得到最终的网络参数;
[0011]步骤6,输出匹配结果:将查询图片和图片库中图片分别送入步骤5 生成卷积神经网络模型中,得到各自的由三个不同层级、不同粒度的特征向量组合而成的特征表示,对查询图片和图片库中图片的特征之间计算欧氏距离,根据距离的大小进行排序并输出结果。
[0012]进一步的,所述步骤1中的数据预处理包括图片尺寸的缩放、水平翻转、归一化和随机擦除。
[0013]进一步的,所述的步骤2中的卷积神经网络,其骨干网络选择深度残差网络ResNet-50。
[0014]进一步的,所述的步骤3中的通道注意力机制是分别通过全局平均池化和全局最大池化生成与原本融合卷积层通道数相同大小的权重向量,然后通过一个卷积操作将通道数压缩,再使用一个卷积层将通道数还原为输入通道数,然后将两个权重向量相加,经过激活函数激活生成最终的通道权重与输入特征相结合,所述的空间注意力机制是首先分别通过平均池化和最大池化生成特征图,然后将两个特征图连接形成两个通道的特征图,这两个通道的特征图经过一个卷积操作将通道数降为1,然后经过激活函数激活得到空间掩膜。
[0015]进一步的,所述的步骤4中的分块处理具体如下:首先,从特征提取网络和特征融合网络得到三个不同尺度的全度特征,然后将分辨率最大的特征图分成3等分水平条纹,中间分辨率的特征图分成2等分水平条纹,最终,这5个水平条纹区域特征图和3个全局特征图,经过全局平均池化操作得到8个特征向量被送入分类网络。
[0016]进一步的,所述的步骤5的交叉熵损失函数为:
[0017][0018]其中,N表示训练过程中的批次样本的大小,C表示训练集中行人的类别数,所述步骤5中的基于难例挖掘三元组损失函数为:
[0019][0020]其中,P表示训练批次中不同行人的个数,K表示每个行人采样的图片的个数,α表示正负样本的距离间隔大小,这里的正样本和负样本是指与样本有相同或不同身份的行人;
[0021]所述步骤5中的最大化同方差不确定性的最大高斯似然推导多任务损失函数,多任务损失函数包含交叉熵损失函数和基于难例挖掘的三元组损失函数,对于交叉熵损失函数:
[0022]p(y|f
W
(x))=Softmax(f
W
(x))
[0023]对于难例挖掘的三元组损失函数,将其看是做是符合正态分布的任务:
[0024][0025]根据交叉熵损失函数和难例挖掘的三元组损失函数,最大化同方差不确定性的最大高斯似然推导多任务损失函数为:
[0026][0027]其中,W是参数矩阵,σ
s

t
是观测噪声,是基于欧氏距离的三元组损失,是基于多分类任务的交叉熵损失函数。
[0028]所述步骤5中的掩膜正则化项为:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度、多粒度行人重识别方法,其特征在于,包括如下步骤:步骤1,图像数据预处理:对跨摄像机的行人图片进行预处理;步骤2,尺度特征提取:将步骤1预处理后的图形数据送入所设计的卷积神经网络,从网络的不同层级获取不同尺度的特征图,使用特征金字塔技术融合不同尺度的特征图,即通过横向连接和上采样技术,将不同层级的特征图相加融合;步骤3,掩膜提取:在步骤2的融合结构的横向连接中增加空间注意力和通道注意力,首先使用通道注意力机制学习不同通道的特征图权重;然后使用空间注意力机制学习特征图像素级别上的区域权重,得到空间掩膜,改善背景杂乱对行人重识别性能的影响;步骤4,粒度特征提取:对步骤2所得到的不同尺度的特征图进行分块处理,可以得到不同粒度的特征图,能够改善遮挡对行人重识别性能的影响,最终可以得到多尺度的多粒度的整体特征图;步骤5,损失函数计算:对步骤4获得的整体特征图进行全局平局池化,然后做L2正则化处理,最终计算基于难例挖掘的三元组损失;对步骤4获得所有的特征图做批量正则化处理,与数据标注的身份信息计算交叉熵损失;对步骤3中的不同尺度的空间掩膜计算L2损失,作为掩膜正则化项;将行人重识别任务看作是前面提到的三个任务的组合,通过最大化同方差不确定性的最大高斯似然推导多任务损失函数,得到最终的损失,对整个网络模型进行训练,不断地迭代优化得到最终的网络参数;步骤6,输出匹配结果:将查询图片和图片库中图片分别送入步骤5生成卷积神经网络模型中,得到各自的由三个不同层级、不同粒度的特征向量组合而成的特征表示,对查询图片和图片库中图片的特征之间计算欧氏距离,根据距离的大小进行排序并输出结果。2.根据权利要求1所述的基于多尺度、多粒度行人重识别方法,其特征在于,所述的步骤1中的数据预处理包括图片尺寸的缩放、水平翻转、归一化和随机擦除。3.根据权利要求1所述的基于多尺度、多粒度行人重识别方法,其特征在于,所述的步骤2中的卷积神经网络,其骨干网络选择深度残差网络ResNet-50。4.根据权利要求1所述的基于多尺度、多粒度行人重识别方法,其特征在于,所述的步骤3中的通道注意力机制是分别通过全局平均池化和全局最大池化生成与原本融合卷积层通道数相同大小的权重向量,然后通过一个卷积操作将通道数压缩,再使用一个卷积层将通道数还原为输入通道数,然后将两个权重向量相加,经过激活函数激活生成最终的通道权重与输入特征相结合,所述的空间注意力机制是首先分别通过平均池化和最大池化生成特征图,然后将两个特征图连接形成两个通道的...

【专利技术属性】
技术研发人员:周大可
申请(专利权)人:上海舜瞳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1