基于深度学习和距离度量学习的人员再识别方法技术

技术编号:18576447 阅读:35 留言:0更新日期:2018-08-01 11:29
本发明专利技术涉及识别方法领域,尤其是基于深度学习和距离度量学习的人员再识别方法。该识别方法包括:(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理,检测出视频中的行人目标;(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典;(3)利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新的图像表达方式,也即是图像深度学习表示向量;(4)采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。本发明专利技术能够更加准确的表达图像本质属性,从而很好地提升行人再识别准确度。

Re recognition method based on deep learning and distance metric learning

The invention relates to the field of recognition methods, especially the method of personnel re recognition based on deep learning and distance metric learning. The method includes: (1) the pedestrian target detection party based on the convolution neural network processing video data, detecting the pedestrian target in the video, and (2) using the unsupervised RBM network to encode the initial feature of the pedestrian target by using the bottom-up way to get the visual dictionary with both sparsity and selection rows. (3) We use the error back propagation to supervise the initial visual dictionary, obtain the new image expression of the video image, that is, the image depth learning expression vector; (4) using the distance measure learning method of the feature grouping and the eigenvalue optimization, obtain the measure space which is closer to the true real semantics, and use the linear SVM score. The class device identifies the pedestrian targets. The invention can express the essential attribute of the image more accurately, thereby improving the accuracy of pedestrian re recognition.

【技术实现步骤摘要】
基于深度学习和距离度量学习的人员再识别方法
本专利技术涉及识别方法领域,尤其是基于深度学习和距离度量学习的人员再识别方法。
技术介绍
近年来,随着视频监控系统大量建设与应用,使其在打击犯罪、维护稳定实践中发挥着越来越重要的作用。当前大多数监控系统采用实时拍摄和人工监视的形式,这要求监控人员时刻注意监控画面,仔细分辨视频中的事件,而这显然是不现实的,何况人工查看的方式存在大量的疏漏和主观误差。考虑到日益增长的监控视频规模,这种方式所需的人力成本也将难以承受,而且效率低下。因此,急需方便快捷的方法来替代现有的人工主导的监控体系。强烈的现实需求和计算机相关技术的进步,催生了行人再识别技术(PersonRe-identification),该技术也成为了当前视频智能监控领域中一个极具有挑战性的问题,其主要任务是完成跨摄像头的行人搜索与识别。行人再识别技术主要是通过视觉比对的方式将视场不重叠的多个摄像机所拍摄到的属于同一个行人的图像或者视频片段关联起来的技术。特征提取是人员再识别技术的核心步骤,特征的好坏直接影响着识别结果的准确与否,因此,需要我们研究如何提取能够准确表达人体结构性信息的特征。深度学习的兴起和发展为图像特征表达提供了新的技术手段,但存在着解释性差、模型复杂度高、计算强度高等问题。而视觉词袋模型则能够有效地进行中层语义建模,将图像底层特征映射至视觉单词上,建立了跨越“语义鸿沟”的桥梁,那么如何将深度学习网络强大的自学习能力用于生成兼具稀疏性和选择性的视觉词典,同时对深度学习网络进行优化是本专利技术解决的一个关键问题。在完成行人图像特征提取之后,需要使用训练好的分类器或者距离度量完成跨摄像机的图片相似度匹配,对查询图像进行身份判定。然而,现有的相似性度量模型的泛化能力不强,另一个问题就是研究一种区分性更好的度量空间,使特征空间和语义空间相一致,进一步提升行人再识别的性能。
技术实现思路
本专利技术要解决的技术问题是:为了解决现有的现有的相似性度量模型的泛化能力不强,且行人再识别性能差的不足,本专利技术提供了一种基于深度学习和距离度量学习的人员再识别方法,通过深度学习和距离度量学习,较好地提高了视觉词典的稀疏性和选择性,提取的特征能够更加准确的表达图像本质属性,从而很好地提升行人再识别准确度。本专利技术解决其技术问题所采用的技术方案是:一种基于深度学习和距离度量学习的人员再识别方法,包括以下步骤:(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理,检测出视频中的行人目标;(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典;(3)利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新的图像表达方式,也即是图像深度学习表示向量;(4)采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。具体地,所述采用基于卷积神经网络的行人目标检测方法,分为模型训练阶段和目标检测阶段:(1)在模型训练阶段中,首先通过选择不同角度及外表颜色的样本措施增大样本的多样性,然后将这些样本重新调整至统一的分辨率,再增强样本的对比度,最后通过尝试不同的CNN模型参数训练模型,获得检测性能较好的参数组合;(2)在运动目标检测阶段,首先直接对整幅图像做卷积计算来提取图像特征,然后采用并行计算方法将图像分割为同样大小的小块图像,然后使用训练好的CNN模型同时对这些小块图像进行计算,使用背景建模算法提取每一帧图像中可能存在运动目标的区域,使用非最大值抑制算法将不同尺度下的检测结果进行优化,获得目标的准确位置。具体地,在网络的训练过程中,所述RBM的隐层与显层间之间是通过条件概率分布相关联的,显层层和隐层的条件概率为:公式一:公式二:xi,zj分别代表特征层和编码层,也即是RBM中的显层与隐层;ωij为特征层xi与编码层之间的连接权重系数,给定权重系数矩阵ω和隐层偏置向量b,输入层特征x就可以编码为视觉词典z,相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x;对于RBM中一组给定的输入层和编码层(x,z),其能量函数可计算如下:公式三:基于能量函数,可得到(x,z)的联合概率分布函数:公式四:进而得到联合分布的边缘分布——特征输入节点的概率分布,即:公式五:而RBM网络训练的目的就是使p(x)的值最大化,为此,对公式五求其梯度得,公式六:其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指训练数据集经验概率分布下的期望值,而<xizj>model指该模型下概率分布的期望值,可由蒙特卡罗马尔可夫链(Monte-CarloMarkovchain,MCMC)方法来得到模型样例:公式七:通过CD算法对RBM进行快速学习,加快参数的收敛,可得到权值wij的更新量为:公式八:Δωij=ε(<xizj>data-<xizj>model)其中ε为学习速率,通过CD算法,就可以得到不断更新的参数,一直到参数收敛,得到初始的视觉词典。具体地,所述RBM目标优化函数中加入一个正则项h(z),将目标函数调整如下:公式九:其中λ为正则项的加权系数;利用视觉词典对每一维特征响应的均值就可以定量分析稀疏性与选择性,即:公式十:是每个单词针对K个特征平均激活概率的期望值,单词zj对特征xk响应概率的期望值可标记为pjk∈(0,1),整个词典对K个输入特征的响应期望值可记为矩阵矩阵中的每一行元素pj·代表了单词zj,1≤j≤J对K个输入特征向量响应的期望值,列向量p·k则代表了输入特征xk在整个视觉词典上的分布,因此为了对整个RBM网络进行有监督地微调,定义交叉熵损失函数h(z)如下:公式十一:学习得到视觉词典的稀疏性和选择性与目标矩阵P密切相关,对视觉词典而言,矩阵P中元素为:公式十二:参数μ∈(0,1),根据训练数据的标签类别,误差自顶向下传播,对网络各层参数进行微调如下:公式十三:公式十四:φ(l)是一个超参数函数,γ,η,ε代表学习速率,且有γ=ε-η,那么对于第一层网络而言z(0)即为图像SIFT特征输入向量x,且也即是深度学习表示向量,最顶层网络的参数就可更新如下:公式十五:yc是指顶层输出向量被判别为图像类别C,在上述微调的过程中,采用最大交叉信息熵损失代表基于特征的分类误差,将该误差反向传播至每层网络中,并得到最终的深度学习表示向量。具体地,所述利用特征分组与特征值最优化方法对度量空间进行学习,具体为:(1)采用Ncut特征分组算法,根据特征各维数之间的相关性对图像语义表示向量进行分组;(2)在相似样本约束对的距离小于一定阈值的条件下,将传统的求解SDP问题转化为特征值最优化问题;(3)求解特征值最优化问题,也即是计算每次循环迭代中对称矩阵最大特征值所对应的特征向量;(4)将各分组特征学习得到的度量矩阵进行融合得到全局度量矩阵,形成新的距离度量空间,并用以训练SVM分类器,实现人员再分类识别。本专利技术的有益效果是:本专利技术提供了一种基于深度学习和距离度量学习的人员再识本文档来自技高网
...

【技术保护点】
1.一种基于深度学习和距离度量学习的人员再识别方法,其特征是,包括以下步骤:(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理,检测出视频中的行人目标;(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典;(3)利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新的图像表达方式,也即是图像深度学习表示向量;(4)采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。

【技术特征摘要】
1.一种基于深度学习和距离度量学习的人员再识别方法,其特征是,包括以下步骤:(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理,检测出视频中的行人目标;(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典;(3)利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新的图像表达方式,也即是图像深度学习表示向量;(4)采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。2.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法,其特征在于:所述采用基于卷积神经网络的行人目标检测方法,分为模型训练阶段和目标检测阶段:(1)在模型训练阶段中,首先通过选择不同角度及外表颜色的样本措施增大样本的多样性,然后将这些样本重新调整至统一的分辨率,再增强样本的对比度,最后通过尝试不同的CNN模型参数训练模型,获得检测性能较好的参数组合;(2)在运动目标检测阶段,首先直接对整幅图像做卷积计算来提取图像特征,然后采用并行计算方法将图像分割为同样大小的小块图像,然后使用训练好的CNN模型同时对这些小块图像进行计算,使用背景建模算法提取每一帧图像中可能存在运动目标的区域,使用非最大值抑制算法将不同尺度下的检测结果进行优化,获得目标的准确位置。3.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法,其特征在于:在网络的训练过程中,所述RBM的隐层与显层间之间是通过条件概率分布相关联的,显层层和隐层的条件概率为:公式一:公式二:xi,zj分别代表特征层和编码层,也即是RBM中的显层与隐层;ωij为特征层xi与编码层之间的连接权重系数,给定权重系数矩阵ω和隐层偏置向量b,输入层特征x就可以编码为视觉词典z,相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x;对于RBM中一组给定的输入层和编码层(x,z),其能量函数可计算如下:公式三:基于能量函数,可得到(x,z)的联合概率分布函数:公式四:进而得到联合分布的边缘分布——特征输入节点的概率分布,即:公式五:而RBM网络训练的目的就是使p(x)的值最大化,为此,对公式五求其梯度得,公式六:其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指训练数据集经验概率分布下的期望值,而<xizj>model指该模型下概率分布的期望值...

【专利技术属性】
技术研发人员:李弼程赵永威朱彩英陈良浩
申请(专利权)人:江苏测联空间大数据应用研究中心有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1