基于判别词典嵌入行人图像检索方法、系统、设备及介质技术方案

技术编号:21893023 阅读:26 留言:0更新日期:2019-08-17 14:56
本发明专利技术提供了一种基于判别词典嵌入行人图像检索方法、系统、设备及介质,包括首先从行人图像中提取颜色与纹理特征,然后在训练集上联合学习跨视角的判别词典与度量嵌入矩阵。利用学习到的判别词典,可以把行人图像特征表达为判别性更强的词典基向量的组合系数向量,再使用学习到的度量嵌入矩阵计算测试集中不同摄像机下行人图像间的距离,实现对行人图像检索的任务。在本发明专利技术中将判别词典学习与度量学习的优势进行了组合,通过在数据集上的验证可知,本发明专利技术能够显著地提升行人图像检索的准确率。

Pedestrian Image Retrieval Method, System, Equipment and Media Embedded in Discriminant Dictionary

【技术实现步骤摘要】
基于判别词典嵌入行人图像检索方法、系统、设备及介质
本专利技术涉及图像识别,具体地,涉及一种基于判别词典嵌入行人图像检索方法、系统、设备及介质。
技术介绍
在由多个摄像机组成的分布式视频监控系统中,常常需要检索出具有特定外观的行人对象,进而对此人的行为及事件进行分析。当获得了该行人在某一摄像机下的画面后,从其他摄像机画面中检索出该行人的工作就转化为一个“以图搜图”的任务,其核心是计算检索图像与待匹配图像间的距离或相似度,使得具有相同身份标签的行人在距离上更小或是相似度更高。这样就可以在对所有待匹配图像按相似度排序后,缩小检索范围,提高检索效率。由于同一行人被不同摄像机拍摄时可能会在姿态、视角上呈现很大的差异,而且受到摄像机内部参数、成像时光照环境、行人遮挡等因素的影响,不同摄像机画面中的行人会在外观上存在相当大的差异,这使得根据行人提供的表观信息进行行人图像检索的工作面临着巨大的挑战。当前在处理行人图像检索的问题上主要从特征描述子设计与度量学习模型两个方面开展。前一类方法主要关注从行人图像中提取对光照、视角、姿态等引起引人外观变化的因素具有鲁棒性的特征描述子,然后再借助欧氏距离、余弦相似度、巴氏距离等不需要学习的计算方法来获得检索图像与待匹配图像之间的距离/相似度。不过这些方法在匹配性能上存在一定的不足。与之相比,度量学习模型尽管不特别强调特征描述子的鲁棒性,但是能够利用训练样本与标签蕴含的判别信息来学习匹配模型的参数,获得训练样本数据的内在分布,因此通常能够获得更为优秀的检索准确率。为了获得度量学习模型,通常需要首先在训练数据上学习模型参数,然后再将模型部署到新的环境中进行测试。在当前已公开的论文与专利中已有大量基于度量学习模型的行人图像检索方法。在名称为“EfficientPSDConstrainedAsymmetricMetricLearningforPersonRe-identification”的文献中公开了一种对训练样本作不对称加权的马氏距离度量学习模型,该方法能够有效地抑制训练样本中正负样本不均衡带来的度量偏差问题。名称为“Top-PushVideo-BasedPersonReidentification”的文献中公开了一种“顶推”(TopPush)的度量学习模型,使用由检索样本和一对正、负待匹配样本组成的三元组来约束相对距离关系。名称为“Semi-supervisedcoupleddictionarylearningforpersonre-identification”的文献中通过学习跨视角的半监督耦合词典来表达同一行人在不同摄像机下的外观。名称为“Sample-SpecificSVMLearningforPersonReidentification”的文献中为每个行人学习一个支持向量机的判别向量,再进一步创建最小二乘半耦合词典来表达从行人图像中提取的特征描述子,获得了更具有判别性的特征表达来计算图像间的距离。名称为“KernelCross-ViewCollaborativeRepresentationbasedClassificationforPersonRe-Identification”文献中在学习跨视角的协同表达时引入了核函数来刻画行人图像检索中的不同摄像机下行人外观的非线性变化。现有度量学习模型中仅学习了单一的马氏距离度量矩阵,尽管马氏距离度量能够捕获特征表达向量中不同维度间的关系,但是特征表达向量自身的表达能力却未能得到提升。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种判别词典嵌入的行人图像检索方法。本专利技术除了能够学习度量嵌入矩阵外,还联合学习了跨视角的判别词典来提升行人图像特征表达的判别性。根据本专利技术提供的基于判别词典嵌入的行人图像检索方法,包括如下步骤:步骤S1:将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;步骤S2:将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;步骤S3:根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;步骤S4:通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。优选地,所述步骤S1包括如下步骤:步骤S101:将所述行人图像进行两次缩放生成缩放后行人图像,其中每次缩放时图像宽度与高度均为前一次的设定倍数;步骤S102:对所述行人图像和所述缩放后行人图像分别使用滑动窗口从图像左上角开始,在水平与垂直方向均以设定像素作为移动步长进行滑动,每次移动后从滑动窗口覆盖的区域中分别提第一HSV直方图、第一RGB直方图以及第一LTP直方图;步骤S103:对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图;步骤S104:使用蒙板从所述行人图像的前景中获得行人前景,先将所述行人前景划分为多个水平条,从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图;步骤S105:使用训练后的深度残差网络模型从行人图像中提取深度卷积特征;步骤S106:将第二HSV直方图、第二RGB直方图、第二LTP直方图、第三HSV直方图、第三RGB直方图、第三LTP直方图以及深度卷积特征作串联操作后作为每一所述行人图像的特征表达向量。优选地,所述步骤S3包括如下步骤:步骤S301:令所述训练数据集中由检索集中行人图像提取的特征矩阵为从匹配集中行人图像提取的特征矩阵为d为特征的维度,n为行人图像数;另记为Xp与Xg中特征与(i,j=1,2,…,n)是否具有相同身份的标签矩阵,若相同yij=1,否则yij=-1;建立如下所示的跨视频判别词典嵌入的学习模型:其中,为待求解的跨视角判别词典,di为词典的第i列,m为组合系数的个数,m<n,指代Xp使用词典D进行表达时的组合系数向量,指代Xg使用词典D进行表达时的组合系数向量,即原始特征矩阵作变换后的特征表达,为Zp第i列,为Zg的第j列i,j=1,2,…,n,n为自然数;为度量嵌入矩阵;为距离约束损失函数,计算式为:[·]+为铰链损失(HingeLoss)函数,即[x]+=max(0,x),μ为一个正的常数,用作为判断阈值;式(2)将对具有相同身份标签但距离大于阈值的行人图像和标签不同但距离小于阈值的图人物像对进行惩罚,使得相同标签的行人图像间距离缩小,同时使得标签不同的行人图像间距离增大。式(1)中βij为的贡献系数,用于抑制学习度量嵌入矩阵W过程中正负样本数量上不平衡带来的偏差问题;βij根据之间的距离自适应确定,首先对每个待匹配行人图像特征表达变换为计算和之间的距离,然后将(i,j=1,2,…,n)划分为如下的三个组:式(3)中指代在根据和的距离升序排序的图本文档来自技高网
...

【技术保护点】
1.一种基于判别词典嵌入的行人图像检索方法,其特征在于,包括如下步骤:步骤S1:将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;步骤S2:将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;步骤S3:根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;步骤S4:通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。

【技术特征摘要】
1.一种基于判别词典嵌入的行人图像检索方法,其特征在于,包括如下步骤:步骤S1:将从视频监控画面中裁剪出的多个行人图像统一缩放至预设的尺寸,从多个所述行人图像中提取颜色特征与纹理特征,根据所述颜色特征与所述纹理特征后生成每一所述行人图像的特征表达向量;步骤S2:将多个特征表达向量组成的行人图像特征矩阵与身份标签向量对应后划分为不相交的训练数据集与测试数据集;步骤S3:根据所述训练数据集中的行人图像特征矩阵与对应的身份标签向量通过交替优化的方式求解获得跨视频判别词典与度量嵌入矩阵;步骤S4:通过所述跨视频判别词典将所述测试数据集中行人图像的特征表达为词典基向量的组合系数向量,再使用所述度量嵌入矩阵计算检索集中行人图像与待匹配集中行人图像之间的距离,将所述测试数据集中与待匹配行人图像的相匹配的行人图像按距离升序排序,计算各排序位上的匹配准确率。2.根据权利要求1所述的基于判别词典嵌入的行人图像检索方法,其特征在于,所述步骤S1包括如下步骤:步骤S101:将所述行人图像进行两次缩放生成缩放后行人图像,其中每次缩放时图像宽度与高度均为前一次的设定倍数;步骤S102:对所述行人图像和所述缩放后行人图像分别使用滑动窗口从图像左上角开始,在水平与垂直方向均以设定像素作为移动步长进行滑动,每次移动后从滑动窗口覆盖的区域中分别提第一HSV直方图、第一RGB直方图以及第一LTP直方图;步骤S103:对在每一行中每一滑动窗口中提取的第一HSV直方图、第一RGB直方图以及第一LTP直方图分别进行最大池化运算生成第二HSV直方图、第二RGB直方图以及第二LTP直方图;步骤S104:使用蒙板从所述行人图像的前景中获得行人前景,先将所述行人前景划分为多个水平条,从每个水平条分别提取第三HSV直方图、第三RGB直方图以及第三LTP直方图;步骤S105:使用训练后的深度残差网络模型从行人图像中提取深度卷积特征;步骤S106:将第二HSV直方图、第二RGB直方图、第二LTP直方图、第三HSV直方图、第三RGB直方图、第三LTP直方图以及深度卷积特征作串联操作后作为每一所述行人图像的特征表达向量。3.根据权利要求1所述的基于判别词典嵌入的行人图像检索方法,其特征在于,所述步骤S3包括如下步骤:步骤S301:令所述训练数据集中由检索集中行人图像提取的特征矩阵为从匹配集中行人图像提取的特征矩阵为d为特征的维度,n为行人图像数;另记为Xp与Xg中特征与是否具有相同身份的标签矩阵,若相同yij=1,否则yij=-1;建立如下所示的跨视频判别词典嵌入的学习模型:其中,为待求解的跨视角判别词典,di为词典的第i列,m为组合系数的个数,m<n,指代Xp使用词典D进行表达时的组合系数向量,指代Xg使用词典D进行表达时的组合系数向量,即原始特征矩阵作变换后的特征表达,为Zp第i列,为Zg的第j列i,j=1,2,…,n,n为自然数;为度量嵌入矩阵;为距离约束损失函数,计算式为:[·]+为铰链损失(HingeLoss)函数,即[x]+=max(0,x),μ为一个正的常数,用作为判断阈值;式(2)将对具有相同身份标签但距离大于阈值的行人图像和标签不同但距离小于阈值的图人物像对进行惩罚,使得相同标签的行人图像间距离缩小,同时使得标签不同的行人图像间距离增大。式(1)中βij为的贡献系数,用于抑制学习度量嵌入矩阵W过程中正负样本数量上不平衡带来的偏差问题;βij根据之间的距离自适应确定,首先对每个待匹配行人图像特征表达变换为计算和之间的距离,然后将划分为如下的三个组:式(3)中指代在根据和的距离升序排序的图像列表中,的排序顺序(Rank);指代与正确匹配的图像的排序位置;与中的样本分别对应于的困难匹配...

【专利技术属性】
技术研发人员:董虎胜陆萍王利锋许枫丹徐建峰孙浩
申请(专利权)人:苏州经贸职业技术学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1