一种半耦合字典对学习的行人重识别方法及系统技术方案

技术编号:21548575 阅读:29 留言:0更新日期:2019-07-06 21:50
本发明专利技术属于行人重识别技术领域,公开了一种半耦合字典对学习的行人重识别方法及系统,分别提取CGVID数据集中真彩视频和灰阶视频的时空特征;输入训练集以及参数,训练模型;然后经过多次迭代更新,训练得到字典对DC和DG、视频间映射W和V、映射矩阵P;根据学习到的模型,对测试集的灰阶视频和真彩视频分别进行稀疏表示;给定测试集中任一灰阶视频,计算它与各真彩视频的距离,并按距离值大小升序排列,最后选取距离值最小的真彩视频作为该灰阶视频的真实匹配。本发明专利技术方法不仅能够适应新的真彩和灰阶视频之间的行人重识别场景,还能有效提高识别效率。

A Semi-Coupled Dictionary Method and System for Pedestrian Recognition in Learning

【技术实现步骤摘要】
一种半耦合字典对学习的行人重识别方法及系统
本专利技术属于行人重识别
,尤其涉及一种半耦合字典对学习的行人重识别方法及系统,具体涉及一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法。
技术介绍
目前,业内常用的现有技术是这样的:现有的基于视频的行人重识别任务,主要关注视频的特征学习或距离度量学习。特征学习方面,文献提出了流动能量轮廓(FEP)将行人的步态周期进行划分,并从视频序列帧中自动选择最具判定性的视频段。以及基于FEP,STFV3D方法通过Fisher向量对步态周期的3D时空特征进行提取,学习到的特征同时包含视觉外观信息和视频序列的时间信息。度量学习方面,SI2DL方法根据STFV3D提取的特征,同时学习一个视频内的映射矩阵和一个视频间的距离度量。以及一些基于深度神经网络的方法,比如McLaughlin等人则提出一个循环和卷积神经网络结构,用于学习视觉外观和视频光流信息的深度特征向量。Zhou等人提出一种端到端的深度神经网络结构,并且利用视频的时间和空间注意力信息,对特征和度量同时进行学习。行人重识别作为广泛研究的热点,在视频监控和智慧城市中具有重要的应用。大多数现有的行人重识别方法只考虑不同真彩摄像机内的行人匹配问题,但由于硬件故障、设备老化或者是灰度模式的特殊情况,例如真彩存储线路故障或是存储空间的节约等等,导致摄像机会产生一些灰阶视频。灰阶视频只包括单通道,因此会损失大量色彩信息,会对识别效率产生影响。这种场景下的行人重识别被叫做真彩(三通道)与灰阶(单通道)视频之间的行人重识别(CGVPR),并且是一个跨模态的问题。行人重识别的主要任务是匹配不同摄像机中的行人。行人重识别的方法可以分为两类:基于特征学习的方法和基于距离学习的方法。基于特征学习的方法是从行人样本中学习出具有鲁棒性和判定性的表示。基于距离的度量学习方法通过学习关于行人重识别的有效度量,以消除行人在不同摄像头中存在的差异。CGVPR作为真实场景中的重要应用,却没有得到充分的研究,特别是灰阶视频作为测试集,匹配查询集中真彩视频的情况。常规场景中的行人重识别方法,不能直接被用来有效地解决真彩和灰阶视频的跨模识别问题。主要原因在于,这些方法没有考虑到灰阶模式在视觉表现特征和时空特征上的影响。综上所述,现有技术存在的问题是:现有的方法仅考虑了probe和gallery视频集都为真彩模式下的行人重识别任务,而没有考虑到灰阶模式对视频的视觉表现特征和时空特征产生的影响,即视频色彩模式的不同,造成特征之间的鸿沟,灰阶模式下的视频会损失部分信息。即使是同一个人的同一张图像,不同模式的特征之间也存在不同程度的差异。如图1所示,首行表示真彩图像,尾行表示同一张图像对应的灰阶模式下的图像,中间行是应用余弦相似度对20张图像两种模式之间的相似程度进行度量的结果。其中横轴表示选取的行人图像编号,纵轴表示图像之间余弦相似度的值.不难看出,两者并不完全相似,不同模式造成的差异甚至可能达到0.3以上。因此,现有的方法对于真彩和灰阶视频的跨模识别问题,对不同模式的视频仍采用相同的处理,因而直接应用会导致识别效率的大打折扣。仅利用半耦合字典学习技术学习到的字典和映射不具有鉴别力,重构出来的灰阶视频特征不能很好的接近真彩视频中同一个人的视频特征,并远离其他行人的视频特征,识别效率不能到达最优。解决上述技术问题的难度:灰阶模式下的视频相对真彩视频会造成有效信息的损失。例如灰阶模式下每个像素值通常以8位256种不同的灰度强度存储,真彩模式则以24位16M种不同的表示存储,进而不同模式的视频之间存在鸿沟。在处理视频特征时,不仅要考虑到视频内由于各种因素(例如,视角变化、光照变化、姿态变化、部分遮挡和低分辨率)导致的差异,还要考虑灰阶模式对视频特征的影响。因此需要一个松弛的假设,使得两种视频在各自克服自身噪声的同时,建立稳定的映射关系。重构出的灰阶视频和真彩视频应具有这样的性质,同一个人的视频之间应相互靠近,不同行人的视频之间应相互远离,因此需要进一步约束调整,提高鉴别力。解决上述技术问题的意义:较于所有视频数据均为真彩视频的常规场景,由于硬件故障或存储空间不足,行人重识别任务极有可能会面对拍摄视频为灰度模式的情况,灰度模式描述的视频信息更有限,以及与真彩视频之间的特征差异,最终使得行人之间的匹配更为复杂,也更具挑战性。因此,真彩与灰阶视频之间的行人重识别(CGVPR)具有极为重要的研究价值。首先通过对行人视频进行分场景处理,并同时考虑视频间噪声和灰阶视频的特征差异。最终通过缩小由于灰阶模式下视频信息部分丢失造成的视频鸿沟,以及对耦合字典学习下的强假设进行松弛,解决了视频的色彩模式差异造成的影响,使得行人重识别方法能够适应更多场景,特别是存在灰阶视频的情况。其次,设计的鉴别项能够对属于同一行人的视频和分属不同行人的视频之间的距离关系做出更清晰的界定,使得根据灰阶probe视频进行搜索匹配时,能够更准确的鉴别出对应行人的真彩视频,进一步提高了行人重识别的效率。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,有效减少了不同真彩视频和灰阶视频之间的差异,提高了行人重识别的效率。本专利技术是这样实现的,一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法包括以下步骤:步骤一,分别提取CGVID数据集中真彩视频和灰阶视频的时空特征;步骤二、输入训练集以及参数α、β、λ、ρ1、ρ2,训练模型;经过多次迭代更新,训练得到字典对DC和DG、视频间映射W和V、映射矩阵P;步骤三,根据学习到的模型,对测试集的灰阶视频和真彩视频分别进行稀疏表示;步骤四、给定测试集中任一灰阶视频,计算与各真彩视频的距离,并按距离值大小升序排列,选取距离值最小的真彩视频作为该灰阶视频的真实匹配。进一步,步骤二包括:摄像机A的采集到的训练样本是真彩视频,摄像机B采集到的是灰阶视频;将A=[A1,A2,...,Ai,...,AN]和B=[B1,B2,...,Bi,...,BN]分别表示真彩和灰阶训练视频的特征集合,N表示训练集中样本的数量;表示第i个真彩视频的特征集,表示对应的第i个人的第j个步态周期的特征;表示第i个灰阶视频的特征集,表示第i个人的第j个步态周期的特征;d为视频特征的维度;利用字典学习对视频样本进行稀疏表示,X是A在DC上的编码系数矩阵,Y是B在DG上的编码系数矩阵;DC和DG分别表示为摄像机A和B的真彩和灰阶视频特征的字典;视频重构损失项定义如下:其中W和V分别为真彩和灰阶样本的非对称视频间映射;非对称的视频间映射W和V需要最小化每个行人的特征集之间的差异,具体为:其中μi表示相应的第i个行人视频的特征中心;是Ai的第j个特征向量;是Bi的第j个特征向量。进一步,步骤二进一步包括:摄像机A捕捉的真彩视频作为查询集,摄像机B捕捉的灰阶视频作为测试集;利用学习到的映射矩阵,摄像机B的灰阶视频特征接近于同一个人在摄像机A中的真彩视频特征;半耦合映射项为:其中P表示真彩和灰阶视频特征的编码系数之间的半耦合映射矩阵;判定保真项定义如下:其中<i,j>∈S意味着第i个和第j个元素属于同一个行人;表示属于不本文档来自技高网
...

【技术保护点】
1.一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,其特征在于,所述基于非对称的视频间映射的半耦合字典对学习的行人重识别方法包括以下步骤:步骤一,分别提取CGVID数据集中真彩视频和灰阶视频的时空特征;步骤二、输入训练集以及参数α、β、λ、ρ1、ρ2,训练模型;经过多次迭代更新,训练得到字典对DC和DG、视频间映射W和V、映射矩阵P;步骤三,根据学习到的模型,对测试集的灰阶视频和真彩视频分别进行稀疏表示;步骤四、给定测试集中任一灰阶视频,计算与各真彩视频的距离,并按距离值大小升序排列,选取距离值最小的真彩视频作为该灰阶视频的真实匹配。

【技术特征摘要】
1.一种基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,其特征在于,所述基于非对称的视频间映射的半耦合字典对学习的行人重识别方法包括以下步骤:步骤一,分别提取CGVID数据集中真彩视频和灰阶视频的时空特征;步骤二、输入训练集以及参数α、β、λ、ρ1、ρ2,训练模型;经过多次迭代更新,训练得到字典对DC和DG、视频间映射W和V、映射矩阵P;步骤三,根据学习到的模型,对测试集的灰阶视频和真彩视频分别进行稀疏表示;步骤四、给定测试集中任一灰阶视频,计算与各真彩视频的距离,并按距离值大小升序排列,选取距离值最小的真彩视频作为该灰阶视频的真实匹配。2.如权利要求1所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,其特征在于,步骤二包括:摄像机A的采集到的训练样本是真彩视频,摄像机B采集到的是灰阶视频;将A=[A1,A2,...,Ai,...,AN]和B=[B1,B2,...,Bi,...,BN]分别表示真彩和灰阶训练视频的特征集合,N表示训练集中样本的数量;表示第i个真彩视频的特征集,表示对应的第i个人的第j个步态周期的特征;表示第i个灰阶视频的特征集,表示第i个人的第j个步态周期的特征;d为视频特征的维度;利用字典学习对视频样本进行稀疏表示,X是A在DC上的编码系数矩阵,Y是B在DG上的编码系数矩阵;DC和DG分别表示为摄像机A和B的真彩和灰阶视频特征的字典;视频重构损失项定义如下:其中W和V分别为真彩和灰阶样本的非对称视频间映射;非对称的视频间映射W和V需要最小化每个行人的特征集之间的差异,具体为:其中μi表示相应的第i个行人视频的特征中心;是Ai的第j个特征向量;是Bi的第j个特征向量。3.如权利要求1所述的基于非对称的视频间映射的半耦合字典对学习的行人重识别方法,其特征在于,步骤二进一步包括:摄像机A捕捉的真彩视频作为查询集,摄像机B捕捉的灰阶视频作为测试集;利用学习到的映射矩阵,摄像机B的灰阶视频特征接近于同一个人在摄像机A中的真彩视频特征;半耦合映射项为:其中P表示真彩和灰阶视频特征的编码系数之间的半耦合映射矩阵;判定保真项定义如下:其中<i,j>∈S意味着第i个和第j个元素属于同一个行人;表示属于不同的行人;S和分别表示相同样本对和不同的样本对的集合;|·|表示集合中元素的数量;β是调整变量;通过学习到的映射P,摄像机B的灰阶特征系数将接近摄像机A的真彩特征系数;最后目标函数分析视频...

【专利技术属性】
技术研发人员:荆晓远马飞程立黄鹤杨梁姚永芳訾璐
申请(专利权)人:广东石油化工学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1