一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法技术

技术编号：41280144 阅读：6 留言：0更新日期：2024-05-11 09:31

本发明专利技术公开了一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法，包括以下步骤：（1）获取多种数据集（2）构建掩码语义信息提取器；（3）构建用于处理图片信息，进行提取特征的Transformer骨干网络；（4）构建用于提取细粒度部分特征的分层特征聚合模块；（5）构建用于提取判别性全局特征的多特征补偿模块；（6）合并步骤（2）‑（5），构建基于掩码先验以及分层聚合Transformer的遮挡行人重识别框架；（7）构建用于遮挡行人重识别模型的损失函数；（8）加载由IMAGENET训练的预训练权重，利用Occluded‑Duke数据集的训练集对模型进行训练，测试集对得到的模型进行测试，寻找最优模型；本发明专利技术引导模型关注非遮挡身体部位以及提取判别性信息用于行人匹配。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉图像检索，具体涉及一种基于掩码先验和分层聚合transformer的遮挡行人重识别方法。

技术介绍

1、行人重识别旨在多个不重叠的摄像机视野下定位目标行人，是计算机视觉研究领域一个关键问题，在智能安防和智慧城市等视频监控领域具有重要的研究价值。近年来，随着深度学习和神经网络技术的进步，各种各样的解决方案被提出，完整行人重识别取得了实质性进展。然而，在现实场景中，例如商场、学校、车站等，行人非常容易被某些障碍物遮挡。由此造成的行人不完整或不可见的身体部位，使得遮挡行人重识别的研究具有重要的现实意义。

2、解决遮挡行人重识别问题的方法主要涉及对遮挡场景下的行人图像进行特征提取和建模。根据提取特征的网络结构，现有解决遮挡行人重识别的方法可以分为三类：基于卷积神经网络（cnn），基于transformer以及基于混合结构。基于cnn的遮挡行人重识别方法虽然取得了不错的重识别结果，但是由于其受限的感受野以及下采样操作，造成了行人特征提取不充分以及特征丢失的问题。在这个背景下，基于transformer的遮挡行人重识别方法应运而生且取得了令人印象深刻的结果。另外，有研究者发现结合transformer以及cnn网络形成的混合结构在一定程度上更能实现鲁棒特征的提取，促进了遮挡行人重识别工作的推进。这些技术背景为遮挡行人重识别的专利技术专利提供了坚实的基础以及动机。

3、但是回顾现有方法，例如公开号为cn116311345a（一种基于transformer的遮挡行人重识别方法），聚焦于显著性特征

技术实现思路

1、专利技术目的：本专利技术的目的是提供种基于掩码先验和分层聚合transformer的遮挡行人重识别方法引导模型关注非遮挡身体部位以及生成细粒度的局部特征和判别性的全局特征。联合局部特征以及全局特征进行特征匹配，从而提高遮挡场景下行人重识别算法的精度。

2、技术方案：本专利技术所述的一种基于掩码先验和分层聚合transformer的遮挡行人重识别方法，包括以下步骤：

3、（1）获取多种数据集包括：用于掩码提取器预训练的coco数据集和transformer骨干网络预训练的imagenet数据集，以及用于行人重识别的完整数据集：market-1501、msmt17，遮挡数据集：occluded-duke和occluded-reid；

4、（2）构建掩码语义信息提取器，包含语义信息处理模块；在语义信息处理模块中包含将图像分割成块的patch embedding操作以及全连接层线性映射函数的实现；

5、（3）构建用于处理图片信息，进行提取特征的transformer骨干网络；

6、（4）构建用于提取细粒度部分特征的分层特征聚合模块；

7、（5）构建用于提取判别性全局特征的多特征补偿模块；

8、（6）合并步骤（2）-（5），构建基于掩码先验以及分层聚合transformer的遮挡行人重识别框架；

9、（7）构建用于遮挡行人重识别模型的损失函数，包含用于全局特征的损失函数以及用于部分特征的损失函数；

10、（8）加载由imagenet训练的预训练权重，利用occluded-duke数据集的训练集对模型进行训练，测试集对得到的模型进行测试，寻找最优模型。

11、进一步的，所述步骤（2）包括以下步骤：

12、（21）将输入图片输入到掩码提取器，掩码提取器利用在coco数据集上训练得到的hrnet网络，获取行人掩码语义信息；

13、（22）掩码语义信息经过语义信息处理模块获取行人前景语义嵌入，用于与行人图像块特征融合，引导模型关注非遮挡身体部位。

14、进一步的，所述步骤（3）包括以下步骤：

15、（31）通过patch embedding操作对输入数据进行分块，图像的大小调整为256×128，并设置图像的patch尺寸为16×16；

16、（32）将每个图像块通过一个可学习的全连接层映射到更高维的表示空间；

17、（33）添加位置编码以及相机编码，保留图像块的相对位置信息和相机信息；

18、（34）构建可学习的全局分类token，初始化为维度与线性映射输出向量维度一致的向量表示；

19、（35）构建由多个相同的层组成的transforme关键组件encoder；其中，设置12层encoder结构，每个层都包括：多头自注意力机制和前馈神经网络；

20、（36）构建q，k，v三个线性层实现不同transformer层多头自注意力机制的计算，并将计算结果经过dropout层输出；输出的结果与layernorm的输出相加得到多头自注意力计算后的特征；

21、（37）将多头自注意力计算后的特征依次通过layernorm层，mlp层；其中mlp为一个级联的二层线性层；最后将mlp的输出和layernorm的输入相加得到特征输出。

22、（38）构建具有1000个类别的分类头以及用于训练模型的分类损失和度量损失函数，完成整个用于提取特征的骨干网络构建。

23、进一步的，所述步骤（4）包括以下步骤：

24、（41）输出transformer中12层编码器结构第2,4,10,12层后的图片块特征表示；

25、（42）将输出的不同层次第2,4,10,12层图片块特征表示分别进行形状调整并连接到一起，输入到卷积层网络并进行全局最大池化操作来提取细粒度部分特征，卷积层网络由连续的三个3*3卷积以及batchnorm和relu激活函数组成。

26、进一步的，所述步骤（5）包括以下步骤：

27、（51）提取骨干网络最后一层的全局分类token；

28、（52）对获取的全局分类token进行形状调整，输入到多分支并行卷积神经网络进行多路径特征集成，以生成判别性的全局特征；其中，多分支并行卷积神经网络由三个具有不同分辨率1、2、3的空洞卷积网络构成。

29、进一步的，所述步骤（7）包括以下步骤：

30、（71）构建softmax损失函数以及triplet损失函数用作全局特征学习约束；

31、（72）构建余弦相似度损失本文档来自技高网...

【技术保护点】

1.一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法，其特征在于引导模型关注非遮挡身体部位以及提取判别性信息用于行人匹配，包括以下步骤：

2.根据权利要求1所述的一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法，所述步骤（2）包括以下步骤：

3.根据权利要求1所述的一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法，所述步骤（3）包括以下步骤：

4.根据权利要求1所述的一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法，所述步骤（4）包括以下步骤：

5.根据权利要求1所述的一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法，所述步骤（5）包括以下步骤：

6.根据权利要求1所述的一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法，所述步骤（7）包括以下步骤：

7.一种基于掩码先验和分层聚合Transformer的遮挡行人重识别系统，包括：

8.一种设备，包括存储器、处理器及存储在存储器上并

9.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被设计为运行时实现根据权利要求1-6任一项所述的一种基于掩码先验和分层聚合Transformer的遮挡行人重识别方法。

...

【技术特征摘要】

1.一种基于掩码先验和分层聚合transformer的遮挡行人重识别方法，其特征在于引导模型关注非遮挡身体部位以及提取判别性信息用于行人匹配，包括以下步骤：

2.根据权利要求1所述的一种基于掩码先验和分层聚合transformer的遮挡行人重识别方法，所述步骤（2）包括以下步骤：

3.根据权利要求1所述的一种基于掩码先验和分层聚合transformer的遮挡行人重识别方法，所述步骤（3）包括以下步骤：

4.根据权利要求1所述的一种基于掩码先验和分层聚合transformer的遮挡行人重识别方法，所述步骤（4）包括以下步骤：

5.根据权利要求1所述的一种基于掩码先验和分层聚合transformer的遮挡行人重识别方法，所述...

【专利技术属性】
技术研发人员：张国庆，杨艳，张家伟，董仕豪，郑钰辉，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人