The invention relates to the field of recognition methods, especially the method of personnel re recognition based on deep learning and distance metric learning. The method includes: (1) the pedestrian target detection party based on the convolution neural network processing video data, detecting the pedestrian target in the video, and (2) using the unsupervised RBM network to encode the initial feature of the pedestrian target by using the bottom-up way to get the visual dictionary with both sparsity and selection rows. (3) We use the error back propagation to supervise the initial visual dictionary, obtain the new image expression of the video image, that is, the image depth learning expression vector; (4) using the distance measure learning method of the feature grouping and the eigenvalue optimization, obtain the measure space which is closer to the true real semantics, and use the linear SVM score. The class device identifies the pedestrian targets. The invention can express the essential attribute of the image more accurately, thereby improving the accuracy of pedestrian re recognition.
【技术实现步骤摘要】
基于深度学习和距离度量学习的人员再识别方法
本专利技术涉及识别方法领域,尤其是基于深度学习和距离度量学习的人员再识别方法。
技术介绍
近年来,随着视频监控系统大量建设与应用,使其在打击犯罪、维护稳定实践中发挥着越来越重要的作用。当前大多数监控系统采用实时拍摄和人工监视的形式,这要求监控人员时刻注意监控画面,仔细分辨视频中的事件,而这显然是不现实的,何况人工查看的方式存在大量的疏漏和主观误差。考虑到日益增长的监控视频规模,这种方式所需的人力成本也将难以承受,而且效率低下。因此,急需方便快捷的方法来替代现有的人工主导的监控体系。强烈的现实需求和计算机相关技术的进步,催生了行人再识别技术(PersonRe-identification),该技术也成为了当前视频智能监控领域中一个极具有挑战性的问题,其主要任务是完成跨摄像头的行人搜索与识别。行人再识别技术主要是通过视觉比对的方式将视场不重叠的多个摄像机所拍摄到的属于同一个行人的图像或者视频片段关联起来的技术。特征提取是人员再识别技术的核心步骤,特征的好坏直接影响着识别结果的准确与否,因此,需要我们研究如何提取能够准确表达人体结构性信息的特征。深度学习的兴起和发展为图像特征表达提供了新的技术手段,但存在着解释性差、模型复杂度高、计算强度高等问题。而视觉词袋模型则能够有效地进行中层语义建模,将图像底层特征映射至视觉单词上,建立了跨越“语义鸿沟”的桥梁,那么如何将深度学习网络强大的自学习能力用于生成兼具稀疏性和选择性的视觉词典,同时对深度学习网络进行优化是本专利技术解决的一个关键问题。在完成行人图像特征提取之后,需要使用 ...
【技术保护点】
1.一种基于深度学习和距离度量学习的人员再识别方法,其特征是,包括以下步骤:(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理,检测出视频中的行人目标;(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典;(3)利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新的图像表达方式,也即是图像深度学习表示向量;(4)采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。
【技术特征摘要】
1.一种基于深度学习和距离度量学习的人员再识别方法,其特征是,包括以下步骤:(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理,检测出视频中的行人目标;(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典;(3)利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新的图像表达方式,也即是图像深度学习表示向量;(4)采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。2.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法,其特征在于:所述采用基于卷积神经网络的行人目标检测方法,分为模型训练阶段和目标检测阶段:(1)在模型训练阶段中,首先通过选择不同角度及外表颜色的样本措施增大样本的多样性,然后将这些样本重新调整至统一的分辨率,再增强样本的对比度,最后通过尝试不同的CNN模型参数训练模型,获得检测性能较好的参数组合;(2)在运动目标检测阶段,首先直接对整幅图像做卷积计算来提取图像特征,然后采用并行计算方法将图像分割为同样大小的小块图像,然后使用训练好的CNN模型同时对这些小块图像进行计算,使用背景建模算法提取每一帧图像中可能存在运动目标的区域,使用非最大值抑制算法将不同尺度下的检测结果进行优化,获得目标的准确位置。3.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法,其特征在于:在网络的训练过程中,所述RBM的隐层与显层间之间是通过条件概率分布相关联的,显层层和隐层的条件概率为:公式一:公式二:xi,zj分别代表特征层和编码层,也即是RBM中的显层与隐层;ωij为特征层xi与编码层之间的连接权重系数,给定权重系数矩阵ω和隐层偏置向量b,输入层特征x就可以编码为视觉词典z,相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x;对于RBM中一组给定的输入层和编码层(x,z),其能量函数可计算如下:公式三:基于能量函数,可得到(x,z)的联合概率分布函数:公式四:进而得到联合分布的边缘分布——特征输入节点的概率分布,即:公式五:而RBM网络训练的目的就是使p(x)的值最大化,为此,对公式五求其梯度得,公式六:其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指训练数据集经验概率分布下的期望值,而<xizj>model指该模型下概率分布的期望值...
【专利技术属性】
技术研发人员:李弼程,赵永威,朱彩英,陈良浩,
申请(专利权)人:江苏测联空间大数据应用研究中心有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。