一种半耦合字典对学习的行人重识别方法及系统技术方案

技术编号：21548575 阅读：29 留言：0更新日期：2019-07-06 21:50

本发明专利技术属于行人重识别技术领域，公开了一种半耦合字典对学习的行人重识别方法及系统，分别提取CGVID数据集中真彩视频和灰阶视频的时空特征；输入训练集以及参数，训练模型；然后经过多次迭代更新，训练得到字典对DC和DG、视频间映射W和V、映射矩阵P；根据学习到的模型，对测试集的灰阶视频和真彩视频分别进行稀疏表示；给定测试集中任一灰阶视频，计算它与各真彩视频的距离，并按距离值大小升序排列，最后选取距离值最小的真彩视频作为该灰阶视频的真实匹配。本发明专利技术方法不仅能够适应新的真彩和灰阶视频之间的行人重识别场景，还能有效提高识别效率。

A Semi-Coupled Dictionary Method and System for Pedestrian Recognition in Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种半耦合字典对学习的行人重识别方法及系统
本专利技术属于行人重识别
，尤其涉及一种半耦合字典对学习的行人重识别方法及系统，具体涉及一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法。
技术介绍
目前，业内常用的现有技术是这样的：现有的基于视频的行人重识别任务，主要关注视频的特征学习或距离度量学习。特征学习方面，文献提出了流动能量轮廓(FEP)将行人的步态周期进行划分，并从视频序列帧中自动选择最具判定性的视频段。以及基于FEP，STFV3D方法通过Fisher向量对步态周期的3D时空特征进行提取，学习到的特征同时包含视觉外观信息和视频序列的时间信息。度量学习方面，SI2DL方法根据STFV3D提取的特征，同时学习一个视频内的映射矩阵和一个视频间的距离度量。以及一些基于深度神经网络的方法，比如McLaughlin等人则提出一个循环和卷积神经网络结构，用于学习视觉外观和视频光流信息的深度特征向量。Zhou等人提出一种端到端的深度神经网络结构，并且利用视频的时间和空间注意力信息，对特征和度量同时进行学习。行人重识别作为广泛研究的热点，在视频监控和智慧城市中具有重要的应用。大多数现有的行人重识别方法只考虑不同真彩摄像机内的行人匹配问题，但由于硬件故障、设备老化或者是灰度模式的特殊情况，例如真彩存储线路故障或是存储空间的节约等等，导致摄像机会产生一些灰阶视频。灰阶视频只包括单通道，因此会损失大量色彩信息，会对识别效率产生影响。这种场景下的行人重识别被叫做真彩(三通道)与灰阶(单通道)视频之间的行人重识别(CGVPR)，并且是一个跨模态的问题。行人重识...

【技术保护点】
1.一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法，其特征在于，所述基于非对称的视频间映射的半耦合字典对学习的行人重识别方法包括以下步骤：步骤一，分别提取CGVID数据集中真彩视频和灰阶视频的时空特征；步骤二、输入训练集以及参数α、β、λ、ρ1、ρ2，训练模型；经过多次迭代更新，训练得到字典对DC和DG、视频间映射W和V、映射矩阵P；步骤三，根据学习到的模型，对测试集的灰阶视频和真彩视频分别进行稀疏表示；步骤四、给定测试集中任一灰阶视频，计算与各真彩视频的距离，并按距离值大小升序排列，选取距离值最小的真彩视频作为该灰阶视频的真实匹配。

【技术特征摘要】
1.一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法，其特征在于，所述基于非对称的视频间映射的半耦合字典对学习的行人重识别方法包括以下步骤：步骤一，分别提取CGVID数据集中真彩视频和灰阶视频的时空特征；步骤二、输入训练集以及参数α、β、λ、ρ1、ρ2，训练模型；经过多次迭代更新，训练得到字典对DC和DG、视频间映射W和V、映射矩阵P；步骤三，根据学习到的模型，对测试集的灰阶视频和真彩视频分别进行稀疏表示；步骤四、给定测试集中任一灰阶视频，计算与各真彩视频的距离，并按距离值大小升序排列，选取距离值最小的真彩视频作为该灰阶视频的真实匹配。2.如权利要求1所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法，其特征在于，步骤二包括：摄像机A的采集到的训练样本是真彩视频，摄像机B采集到的是灰阶视频；将A＝[A1,A2,...,Ai,...,AN]和B＝[B1,B2,...,Bi,...,BN]分别表示真彩和灰阶训练视频的特征集合，N表示训练集中样本的数量；表示第i个真彩视频的特征集，表示对应的第i个人的第j个步态周期的特征；表示第i个灰阶视频的特征集，表示第i个人的第j个步态周期的特征；d为视频特征的维度；利用字典学习对视频样本进行稀疏表示，X是A在DC上的编码系数矩阵，Y是B在DG上的编码系数矩阵；DC和DG分别表示为摄像机A和B的真彩和灰阶视频特征的字典；视频重构损失项定义如下：其中W和V分别为真彩和灰阶样本的非对称视频间映射；非对称的视频间映射W和V需要最小化每个行人的特征集之间的差异，具体为：其中μi表示相应的第i个行人视频的特征中心；是Ai的第j个特征向量；是Bi的第j个特征向量。3.如权利要求1所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法，其特征在于，步骤二进一步包括：摄像机A捕捉的真彩视频作为查询集，摄像机B捕捉的灰阶视频作为测试集；利用学习到的映射矩阵，摄像机B的灰阶视频特征接近于同一个人在摄像机A中的真彩视频特征；半耦合映射项为：其中P表示真彩和灰阶视频特征的编码系数之间的半耦合映射矩阵；判定保真项定义如下：其中<i,j>∈S意味着第i个和第j个元素属于同一个行人；表示属于不同的行人；S和分别表示相同样本对和不同的样本对的集合；|·|表示集合中元素的数量；β是调整变量；通过学习到的映射P，摄像机B的灰阶特征系数将接近摄像机A的真彩特征系数；最后目标函数分析视频...

【专利技术属性】
技术研发人员：荆晓远，马飞，程立，黄鹤，杨梁，姚永芳，訾璐，
申请(专利权)人：广东石油化工学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人