一种基于显著特征提取的行人重识别方法技术

技术编号：40700379 阅读：5 留言：0更新日期：2024-03-22 10:58

本发明专利技术公开了一种基于显著特征提取的行人重识别方法，步骤如下：S1、构建基于VIT的网络模型；S2、将包含行人的图像输入显著特征提取模块进行行人特征提取，生成只包含行人图像的二值掩膜；S3、将包含行人的图像输入VIT模块进行位置编码得到输出序列；S4、将输出序列与二值掩膜输入显著特征增强模块进行特征解码得到注意力特征；S5、将注意力特征输入分类器进行分类，通过计算身份损失和度量损失训练基于VIT的网络模型；S6、将实时采集的行人图片输入经训练的基于VIT的网络模型提取特征，经度量排序实现行人重识别。本发明专利技术提取行人显著性特征，针对显著性特征赋予更高的注意力，有效提高行人重识别的准确率和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉中的行人重识别，具体涉及到一种基于显著特征提取的行人重识别方法。

技术介绍

1、计算机视觉是一门研究如何使机器“看”的学科，是指相机和计算机相互协作进而代替人眼对客观世界物体进行识别，测量等视觉任务，并最终目标是代替人类进行决策。行人重识别被认为是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，因此也被认为是图像检索领域的子问题。给定一个监控设备下的行人图片，找出所有设备下的该人图片，可以广泛用于智能视频监控、智能安防等领域。

2、目前，基于深度学习的方法在行人重识别领域占主导地位，训练一个行人重识别的深度学习模型可以分为以下几个步骤，首先，将训练集中的一组行人图像经过处理后输入到深度神经网络，经过大量计算得到一组表征行人的特征向量，再将向量代入设计好的损失函数中计算损失值，然后通过梯度反向传播和优化器来更新模型参数，由此可以看出设计出有效提取行人特征的网络模型至关重要，行人重识别方法可以被分为以下几类：(1)基于全局图像的行人重识别方法，经过层层卷积神经网络提取到图像中行人特征，这样做法在当初取得了不错的效果，但是由于卷积神经网络的特性在下采样的过程中，其分辨率会逐步降低，导致网络容易忽略局部的具有判别性特征，并且这种方法在提取特征的过程中容易受到遮挡、背景、人体姿势的干扰，从而影响判别率；(2)基于图像分割或姿势估计模型的行人重识别方法，这两种方法都能将行人信息从背景信息中抽离出来，然后交给后续的行人重识别模型，但是这种方法极大依赖于第一阶段提取到的行人信息，存在将行人身上

技术实现思路

1、本专利技术所要解决的技术问题在于针对上述现有技术的不足，提出了一种显著特征提取的行人重识别方法。

2、本专利技术可以通过采取如下技术方案达到：

3、一种基于显著特征提取的行人重识别方法，所述行人重识别方法包括如下步骤：

4、s1、构建基于vit的网络模型，其中，所述基于vit的网络模型包括显著特征提取模块、vit模块、显著特征增强模块和分类器；

5、s2、将包含行人的图像输入显著特征提取模块进行行人特征提取，生成只包含行人图像的二值掩膜；

6、s3、将包含行人的图像输入vit模块进行位置编码得到输出序列；

7、s4、将上述输出序列与二值掩膜输入显著特征增强模块进行特征解码得到注意力特征；

8、s5、将注意力特征输入分类器进行分类，通过计算身份损失和三元度量损失并重复步骤s2至s5训练基于vit的网络模型；

9、s6、将实时采集的行人图片输入经过训练的基于vit的网络模型提取特征，经度量排序实现行人重识别。

10、进一步地，所述步骤s2中显著特征提取模块的工作过程如下：

11、将包含行人的输入图像分割成只包含行人区域和背景区域的非二值显著性概率图，非二值显著性概率图由n个不同像素组成，将第i个像素的像素值αi归一化到[0，1]区间中，i＝1,2…,n，然后根据以下等式将非二值显著性概率图中第i个像素的像素αi通过比较阈值dα转化为只包含0和1值组成的二值掩膜，公式如下：

12、

13、运用显著特征提取模块能够将包含行人的图像中行人区域以二值掩膜的形式有效提取出来，从而方便针对性地对行人区域的特征进行有效增强。

14、进一步地，所述步骤s3中vit模块的工作过程如下：

15、定义一张输入的包含行人的图像i∈rh×w×c，其中h代表输入图像的高度，w代表输入图像的宽度，c代表输入图像的通道数，用一个长和宽都为p且步长为s的卷积核对图像i进行线性映射，得到n个维度为d的序列d由卷积核的数量决定，i＝1,2…,n，其中：

16、

17、然后生成一个与序列长度相等的可学习的cls标记，将cls标记与序列组合，并通过可学习的位置编码将空间信息整合到组合中，得到输出序列z0表示如下：

18、

19、式中，xcls∈r1×d表示图像i的cls标记，epos∈r(n+1)×d表示为位置编码。

20、使用vit模块能够将图像划分为8个区域，并对每个区域进行各自的位置编码和生成分类标记，为显著特征增强模块提供分类依据。

21、进一步地，所述步骤s4中显著特征增强模块的工作过程如下：

22、将输出序列z0经过多头自注意力操作和多层感知操作，计算输出序列的公式如下：

23、z′l＝msa(ln(zl-1))+zl-1

24、zl＝mlp(ln(z′l))+z′l

25、式中，ln(·)表示层间归一化操作，msa(·)表示多头注意力操作，mlp(·)表示多层感知操作，zl-1表示第l-1层的输出序列，zl表示第l层的输出序列，z′l表示zl-1与zl之间中间层的输出序列；

26、其中多头自注意力操作是由多个自注意力操作拼接组成，单个自注意力的计算公式如下:

27、

28、其中xscor表示注意力得分矩阵，q、k、v分别是zl-1中包含的查询值、待匹配值、输入特征值；

29、定义是注意力得分矩阵中属于类标记的一行，在每一个自注意力头中找到类向量对于每一个小块的注意力分数最大值xmax，根据得到的注意力分数最大值xmax去修改类标记的注意力分数，计算公式如下：

30、

31、其中dθ是控制要相加最大值部分的系数，是中的第i行，mi是二值掩膜展平成1维向量中的第i个值，i＝1,2…,n。

32、显著特征增强模块主要是根据显著特征提取模块提取到的行人图像的二值掩膜，从而针对性地对图像中的行人区域图像赋予更强的注意力分数，进而使得网络模型更关注行人的图像区域，而不是背景区域。

33、进一步地，所述步骤s5中分类器的工作过程如下：

34、记基于vit的网络模型输入的锚点样本为ii，正样本为ij，负样本为ik，分别记三个样本的标签为yi、yj、yk,f(i)为分类器的输出特征，三元度量损失ltri(θ)和身份损失lentropy(θ)分别表示为：

35、

36、

37、其中θ为基于vit的网络模型的模型参数，r为网络模型收敛时负样本对之间距离与正样本对之间距离的目标差值，pi为输入图像经过网络模型分类后的概率值；

38、将目标优化函数表示为：

39、ltotal(θ)＝ltri(θ)+lentropy(θ)，

40、通过最小化目标函数ltotal(θ)，迭代优化基于vit的网络模型至收敛。

41、进一步地，所述步骤s6过程如下：

42、将实时采集的行人图片输入基于vit的网络模型得到行人分类特征，计算特征之间的欧氏距离构建相似度矩阵，根据欧式距离大小进行排序得到检索候选列本文档来自技高网...

【技术保护点】

1.一种基于显著特征提取的行人重识别方法，其特征在于，所述行人重识别方法包括如下步骤：

2.根据权利要求1所述的一种基于显著特征提取的行人重识别方法，其特征在于，所述步骤S2中显著特征提取模块的工作过程如下：

3.根据权利要求2所述的一种基于显著特征提取的行人重识别方法，其特征在于，所述步骤S3中VIT模块的工作过程如下：

4.根据权利要求3所述的一种基于显著特征提取的行人重识别方法，其特征在于，所述步骤S4中显著特征增强模块的工作过程如下：

5.根据权利要求4所述的一种基于显著特征提取的行人重识别方法，其特征在于，所述步骤S5中分类器的工作过程如下：

6.根据权利要求5所述的一种基于显著特征提取的行人重识别方法，其特征在于，所述步骤S6过程如下：

【技术特征摘要】

1.一种基于显著特征提取的行人重识别方法，其特征在于，所述行人重识别方法包括如下步骤：

2.根据权利要求1所述的一种基于显著特征提取的行人重识别方法，其特征在于，所述步骤s2中显著特征提取模块的工作过程如下：

3.根据权利要求2所述的一种基于显著特征提取的行人重识别方法，其特征在于，所述步骤s3中vit模块的工作过程如下：

<...

【专利技术属性】
技术研发人员：张瑞丰，梁亚玲，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人