深度多视图特征距离学习的行人重识别方法技术

技术编号:21399868 阅读:21 留言:0更新日期:2019-06-19 07:14
深度多视图特征距离学习的行人重识别方法,具体按照以下步骤实施:步骤1,提取区域特征向量;步骤2,区域划分,先根据步骤1中得到的图像的所有特征向量,通过归一化算法l2范数归一化;再通过加和的方式表现图像的矢量集合,之后再对图像表示进行l2范数归一化处理;一幅图像划分为N个区域,得到深度区域聚合特征;步骤3,LOMO特征提取,对于参考集和测试集中的行人图像分别提取传统LOMO特征;步骤4,多视图特征距离学习,从深度区域聚合特征和LOMO特征两个角度出发,两个特征分别通过度量方法XQDA训练获得两个距离;步骤5,加权融合策略,对于步骤4得到的两个距离通过参数加权融合获得最终距离,并根据最终距离得到匹配的等级;能明显提高行人重识别的鲁棒性;提高行人重识别的性能。

【技术实现步骤摘要】
深度多视图特征距离学习的行人重识别方法
本专利技术属于图像分析及图像识别
,具体涉及一种深度多视图特征距离学习的行人重识别方法。
技术介绍
近年来,监控摄像机网络在公共安全、商业活动、智慧交通、国防和军事应用领域中的需求日益增加,如:在机场、地铁、车站、银行、学校和军事设施等场所安装监控摄像机网络,用于安全自动无人监控,以有效确保国家设施和公众的安全。正因为监控摄像机网络具有如此大的应用前景,智能视频监控系统引起了许多国家的高度重视,并投入大量资金开展了广泛的研究工作。行人重识别问题是通过多个摄像机视图判断行人是否为同一目标的过程,当前已广泛应用于跟踪任务的视频分析和行人检索中。但是在实际生活中,由于行人重识别受到视角、光照、姿态、背景杂波和遮挡等因素的影响,使得行人图像在不重叠的摄像机视图中的差异性较大,如何减少和降低这种差异性对行人重识别的影响,是当前行人重识别中存在的巨大问题和面临的严峻挑战。特征表示和度量学习是行人重识别系统中的两个基本要素,其中由于特征表示是构成距离度量学习的基础,使其在行人重识别系统中显得尤为重要。虽然度量学习具有一定的有效性,但它很大程度上取决于特征表示的质量。因此,当前许多研究致力于开发更加复杂和具有鲁棒性的特征,用以描述可变条件下的视觉外观,可以将其提取的特征划分为两类:传统特征和深度特征。部分学者对传统特征的研究多集中于设计具有区分性和不变性特征,着手于不同外观特征的拼接,克服了重识别任务中的交叉视图的外观变化,使得识别更加可靠。也有较多的研究使用不同特征的组合来产生更有效的特征。Liao等人(S.Liao,Y.Hu,X.Zhu,andS.Z.Li,"Personre-identificationbyLocalMaximalOccurrencerepresentationandmetriclearning,"inIEEEConferenceonComputerVisionandPatternRecognition,2015,pp.2197-2206.)提出LOMO(LocalMaximalOccurrenceFeature)来表示每个行人图像的高维特征,不仅从图像中提取SILTP(ScaleInvariantLocalTernaryPattern)和HSV(Hue,Saturation,Value)颜色直方图以形成高级描述符,还分析了人体局部的颜色和纹理特征的水平发生概率,并且最大化这一水平发生概率,以获得鲁棒的特性表示,有效地处理了跨摄像机视角的变化;并通过同时学习更具辨别性的距离度量和低维子空间提出了一种交叉视图二次判别分析(Cross-viewQuadraticDiscriminantAnalysis,XQDA)方法。XQDA旨在应用跨摄像机视域训练数据,学习一个可判别的低维子空间。当前深度学习提供了一种强大的自适应方法来处理计算机视觉问题,而无需过多的对图像进行手工操作,广泛应用于行人重识别领域。卷积神经网络(ConvolutionalNeuralNetwork,CNN)因其运行模式最接近生物神经网络而成为最具代表性的深度网络,在计算机视觉中也具有最广泛的应用。CNN的输入可以是原始图像,因此避免了人工进行特征提取的复杂操作,并用CNN的权值共享特性大大降低了网络的复杂度。Li等人(W.Li,R.Zhao,T.Xiao,andX.Wang,"DeepReID:DeepFilterPairingNeuralNetworkforPersonRe-identification,"in2014IEEEConferenceonComputerVisionandPatternRecognition(CVPR),2014.)于2014年在计算机视觉与模式识别国际会议上首次将CNN成功应用于行人重识别领域。之后,CNN在行人重识别领域的应用受到越来越多研究者的关注,部分研究侧重于通过卷积神经网络框架学习特征和度量,将行人重新编码作为排序任务,将图像对或三元组输入CNN。由于深度学习需要依赖于大量的样本标签,因而使得该方法在行人重识别领域中具有应用的局限性。卷积神经网络提取的特征对图像具有较强的描述能力,通常可以提取三维的卷积特征以及单维的全连接特征向量。但卷积层特征比全连接层特征更适合用来识别图像。由于卷积特征是三维特征,如果将其展成一维的特征向量,其维数必然很高,使用高维特征在数据库中的图像进行匹配,必然会花费大量的时间,增加计算的复杂度。因此如何将三维特征变成一维,并能够保证特征的简单化是本专利技术的一个核心问题。由于来自较高层的特征具有大的感受野,容易受到人类姿势和背景杂波的污染,不能充分地应用于行人的重识别。而手工制作的不同的外观特征,旨在克服重新识别任务中的跨视图外观变化,有时会更加独特和可靠。所以本专利技术的另一个核心问题是如何通过操作完成深度特征和传统手工特征的融合,使之相互影响,互相协作,进而提高识别的准确度。
技术实现思路
为克服上述现有技术的不足,本专利技术的目的在于提供一种深度多视图特征距离学习的行人重识别方法,将充分使用深度学习的强大能力,即利用区域特征向量聚合的方法,在微调卷积神经网络的基础上,提出了一个新的低维深度特征向量,并利用加权策略,以一种有效的方式完成深度特征与传统的手工特征之间的协作,用参数加权融合来调整两个特征的相对重要性。为实现上述目的,本专利技术采用的技术方案是,深度多视图特征距离学习的行人重识别方法,具体按照以下步骤实施:步骤1,提取区域特征向量,使用微调的Resnet-50模型提取图像的三维卷积特征,设计不同尺度的滑框,滑框技术被运用到通过网络得到的激活映射的长宽截面上,对得到的卷积层的激活应用各种尺度的滑动窗口,并提取所有区域块中的特征向量,并将所有区域块中的特征向量聚合得到图像的聚合特征向量;步骤2,区域划分,先根据步骤1中得到的图像的所有聚合特征向量,通过归一化算法l2范数归一化;再通过加和的方式表现图像的矢量集合,之后再对图像表示进行归一化算法l2范数归一化处理;最终一幅图像划分为N个区域,得到深度区域聚合特征;步骤3,LOMO特征提取,对于参考集和测试集中的行人图像分别提取传统LOMO特征;步骤4,多视图特征距离学习,从深度区域聚合特征和LOMO特征两个角度出发,两个特征分别通过度量方法、交叉视图二次判别方法训练获得两个距离;步骤5,加权融合策略,对于步骤4得到的两个距离通过参数加权融合获得最终距离,并根据最终距离得到匹配的等级。本专利技术的特点还在于:步骤1所述的提取区域特征向量,具体按照以下步骤实施:步骤1.1,使用微调的Resnet-50卷积网络,根据来自最后一个卷积层的每个图像的图像大小和纵横比来提取激活和特征映射,提取行人单幅图像的激活映射并定义为Ai,j,k,i,j,k分别代表激活映射的宽(W)、长(H)、通道(C);步骤1.2,经步骤1.1处理后,为提高局部信息在模型中的比重,在步骤1.1的基础上,运用滑框技术到已经提取的激活映射的长宽截面上,目的是提高图像局部信息的描述能力;步骤1.3,用L种不同尺度的滑框对特征平面进行区域划分,即用不同比例的区域进行采样,并提取区域块中的特征向量,以获取图像中的局部特征;步本文档来自技高网
...

【技术保护点】
1.深度多视图特征距离学习的行人重识别方法,其特征在于,包括以下步骤实施:步骤1,提取区域特征向量,使用微调的Resnet‑50模型提取图像的三维卷积特征,设计不同尺度的滑框,滑框技术被运用到通过网络得到的激活映射的长宽截面上,对得到的卷积层的激活应用各种尺度的滑动窗口,并提取所有区域块中的特征向量,并将所有区域块中的特征向量聚合得到图像的聚合特征向量;步骤2,区域划分,先根据步骤1中得到的图像的聚合特征向量,通过归一化算法l2范数归一化;再通过加和的方式表现图像的矢量集合,之后再对图像表示进行归一化算法l2范数归一化处理;最终一幅图像划分为N个区域,得到深度区域聚合特征;步骤3,LOMO特征提取,对于参考集和测试集中的行人图像分别提取传统LOMO特征;步骤4,多视图特征距离学习,从深度区域聚合特征和LOMO特征两个角度出发,两个特征分别通过度量方法、交叉视图二次判别方法训练获得两个距离;步骤5,加权融合策略,对于步骤4得到的两个距离通过参数加权融合获得最终距离,并根据最终距离得到匹配的等级。

【技术特征摘要】
1.深度多视图特征距离学习的行人重识别方法,其特征在于,包括以下步骤实施:步骤1,提取区域特征向量,使用微调的Resnet-50模型提取图像的三维卷积特征,设计不同尺度的滑框,滑框技术被运用到通过网络得到的激活映射的长宽截面上,对得到的卷积层的激活应用各种尺度的滑动窗口,并提取所有区域块中的特征向量,并将所有区域块中的特征向量聚合得到图像的聚合特征向量;步骤2,区域划分,先根据步骤1中得到的图像的聚合特征向量,通过归一化算法l2范数归一化;再通过加和的方式表现图像的矢量集合,之后再对图像表示进行归一化算法l2范数归一化处理;最终一幅图像划分为N个区域,得到深度区域聚合特征;步骤3,LOMO特征提取,对于参考集和测试集中的行人图像分别提取传统LOMO特征;步骤4,多视图特征距离学习,从深度区域聚合特征和LOMO特征两个角度出发,两个特征分别通过度量方法、交叉视图二次判别方法训练获得两个距离;步骤5,加权融合策略,对于步骤4得到的两个距离通过参数加权融合获得最终距离,并根据最终距离得到匹配的等级。2.根据权利要求1所述的深度多视图特征距离学习的行人重识别方法,其特征在于,步骤1所述的提取区域特征向量,具体按照以下步骤实施:步骤1.1,使用微调的Resnet-50卷积网络,根据来自最后一个卷积层的每个图像的图像大小和纵横比来提取激活和特征映射,提取行人单幅图像的激活映射并定义为Ai,j,k,i,j,k分别代表激活映射的宽W、长H、通道C;步骤1.2,经步骤1.1处理后,为提高局部信息在模型中的比重,在步骤1.1的基础上,运用滑框技术到已经提取的激活映射的长宽截面上,目的是提高图像局部信息的描述能力;步骤1.3,用L种不同尺度的滑框对特征平面进行区域划分,即用不同比例的区域进行采样,并提取区域块中的特征向量,以获取图像的局部特征。3.根据权利要求1所述的深度多视图特征距离学习的行人重识别方法,其特征在于,步骤2所述的区域划分,具体按照以下方法实施:步骤2.1,滑框的选择标准与过程,滑框的使用被分为四个尺度等级进行,最大尺度对应着激活映射的最大尺寸,在最大尺度L=1时,区域尺寸被确定为尽可能大,即滑框的尺寸等于卷积激活映射长宽截面的短边长度,利用全部的激活映射从长宽两个方向进行累加整合成一个特征向量,在滑框与滑框之间,都有一定的重叠区域,可认为对那些重叠的区域赋予了较大的权重,并且每个滑框都是正方形的,对区域进行均匀采样,使得连续区域之间的重叠尽可能接近40%,滑框的大小由特征平面的短边决定,滑框边长的表达式如下:步骤2.2,当滑框的尺度L=4时,即有4个不同尺度的滑框对激活映射进行操作,对激活映射的各个区域块以宽的方向进行编号,定义为Region1,Region2,…,RegionN,将滑框内的元素直接相加,若定义fa,b为第a个滑框尺度等级下的第b个向量,那么单幅图像在通过滑框操作后累加所有尺度下特征向量的和,最终的全局特征向量的表达式如下式所示:步骤2.3,通过计算与每个区域块相关的特征向量,并用归一化算法l2归一化对其进行后处理,将区域特征向量聚合到单个图像向量中,通过将它们相加并最终进行l2归一化;该步骤使图像的特征维度较低,使其维数等于特征通道的数量;通过提取单幅图像的卷积特征,并将图像特征用一个等于通道数的向量维度表示,最终得到的深度区域聚合特征用DRIF来表示。4.根据权利要求1所述的深度多视图特征距离学习的行人重识别方法,其特征在于,步骤3所述的LOMO特征提取,具体按照以下步骤实施:步骤3.1,LOMO主要着重解决光照和视角问题,在...

【专利技术属性】
技术研发人员:廖开阳邓轩郑元林章明珠雷浩刘山林
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1