一种基于多尺度特征切割与融合的行人重识别方法技术

技术编号:21185284 阅读:46 留言:0更新日期:2019-05-22 15:54
本发明专利技术提供了一种基于多尺度特征切割与融合的行人重识别方法,具体提供一种基于多尺度深度特征切割与融合的行人重识别网络训练及基于该网络的行人重识别方法,通过多尺度全局描述子提取和局部描述子提取,进行行人重识别。全局描述子的提取是对深度网络不同层的特征图进行平均池化和特征融合,局部描述子的提取是将深度网络最深层特征图水平分割成数块,分别提取各块特征图对应的局部描述子。训练中以最小化平滑交叉熵代价函数以及难样本采样三元组代价函数为目的训练网络参数。采用本发明专利技术技术方案,能够解决行人重识别中由于行人姿势变化、摄像头色偏等因素带来的特征不匹配问题,还能消除背景带来的影响,以提高行人重识别的鲁棒性和精度。

A Pedestrian Recognition Method Based on Multi-scale Feature Cutting and Fusion

The invention provides a pedestrian re-recognition method based on multi-scale feature cutting and fusion, in particular provides a pedestrian re-recognition network training based on multi-scale depth feature cutting and fusion and a pedestrian re-recognition method based on the network, and carries out pedestrian re-recognition through multi-scale global descriptor extraction and local descriptor extraction. The extraction of global descriptors is to average pool and fuse the feature maps of different layers of deep network. The extraction of local descriptors is to divide the deepest feature maps of deep network into several blocks horizontally and extract the local descriptors corresponding to each block of feature maps separately. In training, the network parameters are trained to minimize the smoothing cross-entropy cost function and the cost function of difficult sample sampling triple. The technical scheme of the present invention can solve the problem of feature mismatch caused by pedestrian posture change, camera color deviation and other factors in pedestrian recognition, and eliminate the influence of background, so as to improve the robustness and accuracy of pedestrian recognition.

【技术实现步骤摘要】
一种基于多尺度特征切割与融合的行人重识别方法
本专利技术涉及计算机视觉及图像处理
,具体涉及一种基于多尺度特征切割与融合的行人重识别方法。
技术介绍
行人重识别是匹配非重叠摄像机不同视角下的两个对象是否为同一目标的技术,尤其安防刑事等方面得到了广泛的关注和应用。然而行人重识别技术目前仍存在着巨大的挑战,由于在实际情况下易受到光照,视角,背景等因素的影响,使得行人间的类内(同一个行人)差异甚至大于类间(不同行人)差异,从而导致重识别任务的失败。在实际的行人重识别研究工作中,其主要分为三个步骤:特征提取(行人对象的外观特征表示),距离度量(行人对象的相似性比较)以及反馈优化(对排序结果的优化)。本专利技术主要关注的是对行人外观的特征提取。目前大多数方法在提取图像特征的过程中,都忽略了无关背景信息的影响,使得提取好的图像特征带有较多的噪声;其次,为了解决由于拍摄角度不一以及行人姿态的变化问题,大多数方法采取了先验部位匹配的策略,部位匹配一致后提取同一部位的特征做匹配,效果颇为显著,但同时固定部位的匹配可能会导致丢失其他非匹配部位的显著信息。损失了一部分显著信息,使得在分辨一些在非先验部位具有明显差异的图像上,重识别性能大大降低。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于多尺度深度特征切割与融合的行人重识别网络训练及基于该网络的行人重识别方法。本专利技术的目的可以通过采取如下技术方案达到:一种基于多尺度深度特征切割与融合的行人重识别网络训练及基于该网络的行人重识别方法,训练好深度卷积神经网络后,对于定义的检索集与候选集,给定检索集,从候选集中检索出与检索集特征距离接近的行人图片,并认为距离越接近,是同一个人的可能性越高。在本专利技术中,将行人重识别问题看作是一个距离度量问题,如果是同一个行人,提取到的深度特征距离应该相近,否则距离应当较远,其具体步骤包括:训练数据预处理及数据增强,对训练数据进行RGB三通道归一化和随机翻转,增强网络鲁棒性;;提取全局描述子,通过提取深度网络不同尺度的特征图中的信息,进而进行特征融合得到全局描述子;提取局部描述子,通过对网络最后一层的特征图进行分割,获取分块特征图信息,进而降维得到局部描述子;训练网络,对全局和局部描述子,用平滑交叉熵和难样本采样三元组损失作为代价函数训练全局和局部分支;行人重识别,训练直至收敛后,根据提取到的全局描述子和局部描述子,采用度量学习方法计算图像的相似性,由此进行行人重识别。进一步地,所述的提取全局描述子过程如下:全局分支采用ResNet50结构,输入为256*128*3的图像,得到不同层对应不同尺度的特征图,记作(大小为32*16*512),(大小为16*8*1024),(大小为8*4*2048)。具体通过对按通道进行平均池化得到多尺度描述子f1(大小为1*512),f2(大小为1*1024),f3(大小为1*2048)。将f1,f2输入到全连接层实现降维,与f3拼接后通过批规范化层再以ReLU函数作为激活函数得到全局描述子fg;所述批规范化层和ReLU如式所示:yi=BNγ,β(xi)=γxi+β,其中xi为输入特征向量在索引的值,为特征向量的长度。yi为通过批规范化层以后输出特征向量在索引的值,为yi通过ReLU激活函数的输出。∈设置成一个很小的数防止分母为0,另外γ,β是自适应参数,在训练过程中优化。进一步地,所述的提取局部描述子过程如下:局部分支与全局分支共享ResNet50网络除最后一个block的参数,将最后一个block的歩长改为1使得最后一层的特征图大小为16*8*2048,相比全局分支的最后一层特征图扩大了4倍。对特征图进行均匀水平分割得到分块局部部位特征图l∈1,2,3,4;对分块局部部位特征图做基于通道的平均池化得到分块局部描述子f4l(4*2048),l∈1,2,3,4。对分块局部描述子做降维操作,将f4l,l∈1,2,3,4输入到全连接层实现降维,通过批规范化层再以ReLU函数作为激活函数得到分块局部描述子l∈1,2,3,4。将分块局部描述子l∈1,2,3,4按顺序连接成局部描述子fL。进一步地,对全局和局部描述子,用平滑交叉熵和难样本采样三元组损失作为代价函数训练全局和局部分支,具体为:1)已知训练数据的标签即身份编号,由全局和局部描述子fg和fL经过分类器得到的身份概率可以与标签计算平滑交叉熵损失,该代价函数为:p(k)为预测概率,为ID分类矩阵Wyk的转置;为平滑处理后的真实概率;其中,f为描述子,K为训练集的行人ID总数,k为ID索引。δk,f为狄利克雷函数,当f标签为第k类时为1反之为0。ε是个平滑系数,默认为0.1。2)对提取到的描述子fg和fL,通过计算同一身份的行人描述子和不同行人描述子的难样本损失三元组距离损失,可以使同一身份的行人的描述子更加接近,该代价函数为:为当前行人m的第a个实例的描述子,为同属行人m的不同实例的描述子,为另一行人j的实例的描述子,α为距离裕量,[·]+为ReLU函数。进一步地,行人重识别将候选集与检索集数据输入训练好的网络,得到与数据的描述子,计算候选集与检索集描述子的相似度矩阵,依据距离越小匹配程度越高进行行人重识别,具体为;1)定义候选集描述子矩阵为g为候选集数量,k为描述子维度,类似的,有检索集描述子矩阵为q为检索集数量,k为描述子维度。相似度矩阵计算过程如下:检索集描述子矩阵平方按行求和后,按列复制扩展为q*g大小,记为候选集描述子矩阵平方按行求和后,按列复制扩展为g*q大小,转置,记为2)中每一行中距离最小对应的列索引就是候选集中相似程度最高的图片,一般地,选取每一行中距离最小的十张图片作为匹配结果。本专利技术相对于现有技术具有如下的优点及效果:(1)本专利技术提取了多尺度的特征描述子,显著地解决姿势,光照,色偏等因素引起的不匹配问题;(2)本专利技术通过在网络局部分支对特征图进行分割实现了语义部位的匹配,实现了端到端的学习训练,免去了先验网络的引入;(3)本专利技术结合平滑交叉熵和难样本采样三元代价函数训练特征提取网络,实现提取特征的鲁棒性和强表征性。附图说明图1是本专利技术中一种基于多尺度深度特征切割与融合的行人重识别方法的总体流程图;图2是本专利技术中一种基于多尺度深度特征切割与融合的行人重识别网络结构图;图3是本专利技术中一种基于多尺度深度特征切割与融合的行人重识别网络训练流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例如图1所示,公开了一种基于多尺度深度特征切割与融合的行人重识别方法的实现步骤,该实现步骤依次包括:重识别网络训练阶段、检索集和候选集描述子提取阶段、相似度矩阵计算阶段。(1)重识别网络训练阶段:训练数据预处理及数据增强,对训练数据,按均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]进行RGB三通道归一化和随机水平翻转;如图2所示本文档来自技高网...

【技术保护点】
1.一种基于多尺度特征切割与融合的行人重识别方法,首先训练深度卷积神经网络,然后对于定义的检索集

【技术特征摘要】
1.一种基于多尺度特征切割与融合的行人重识别方法,首先训练深度卷积神经网络,然后对于定义的检索集与候选集给定检索集从候选集中检索出与检索集特征距离接近的行人图片,其特征在于,所述的方法包括以下步骤:S1、训练数据预处理及数据增强,对训练数据进行RGB三通道归一化和随机翻转;S2、提取全局描述子,通过提取深度网络不同尺度的特征图中的信息,进行特征融合得到全局描述子,过程如下:S2.1、将图像输入到网络的全局分支,得到不同层的多通道特征图;S2.2、对得到的多通道特征图进行池化操作,得到多尺度描述子;S2.3、将多尺度描述子进行特征融合,得到全局描述子;S3、提取局部描述子,通过对网络最后一层的特征图进行分割,获取分块特征图信息,进而降维得到局部描述子,过程如下:S3.1、将图像输入到网络的局部分支,得到末层的多通道特征图;S3.2、对得到的特征图进行分割并池化,得到多个局部描述子;S3.3、对多个局部描述子进行降维操作,减少描述子冗余;S3.4、将多个局部描述子按顺序连接起来,得到局部描述子;S4、训练网络,对全局和局部描述子,以最小化平滑交叉熵代价函数以及难样本采样三元组代价函数为目的训练网络参数训练全局和局部分支;S5、行人重识别,训练直至收敛后,根据提取到的全局描述子和局部描述子,采用度量学习方法计算图像的相似性,由此进行行人重识别。2.根据权利要求1所述的一种基于多尺度特征切割与融合的行人重识别方法,其特征在于,所述的步骤S1中,将输入图像统一变换为长256宽128的大小,采用ImageNet中真实图像的RGB三通道均值和标准差来归一化输入图像,引入概率水平翻转作为数据增强,增强网络鲁棒性。3.根据权利要求1所述的一种基于多尺度特征切割与融合的行人重识别方法,其特征在于,所述的步骤S2.1中,全局分支采用ResNet50结构,输入为256*128*3的图像,取不同尺度的特征图,记作其中,大小为32*16*512,大小为16*8*1024,大小为8*4*2048。4.根据权利要求1所述的一种基于多尺度特征切割与融合的行人重识别方法,其特征在于,所述的步骤S2.2中,通过对按通道进行平均池化得到多尺度描述子f1、f2、f3,其中,f1大小为1*512,f2大小为1*1024,f3大小为1*2048。5.根据权利要求1所述的一种基于多尺度特征切割与融合的行人重识别方法,其特征在于,所述的步骤S2.3中,将f1、f2输入到全连接层实现降维,与f3拼接后通过批规范化层再以ReLU函数作为激活函数得到全局描述子fg;所述的批规范化层和...

【专利技术属性】
技术研发人员:张昱晟黄昌正周智恒许冰媛陈曦肖芸榕
申请(专利权)人:华南理工大学淮北幻境智能科技有限公司广州幻境科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1