基于模态共享transformer的可视光-红外行人重识别方法技术

技术编号：40827605 阅读：3 留言：0更新日期：2024-04-01 14:49

本发明专利技术公开了一种基于模态共享transformer的可视光‑红外行人重识别方法，包括分别捕获可视光模态和红外模态下的行人图像，将可视光模态下的图像转化为灰度图像作为灰度模态，将三种模态下的图像分别投影成特征向量；将图像投影得到的特征向量与该图像的位置向量和色彩向量相结合，并将结合向量输入至transformer模型中提取全局特征；采用两阶段训练方式失更新transformer模型；取训练完成的transformer模型提取待重识别图像的全局特征以及图像库中图像的全局特征，根据所提取的全局特征输出行人重识别结果。本发明专利技术克服跨模态特征提取困难、匹配困难问题，提高多模态行人重识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理、特征提取、深度学习、特征关联、姿态估计、行人重识别等领域，尤其涉及一种特征聚簇的行人重识别方法。

技术介绍

1、行人重识别(person re-id)是计算机视觉的一个重要领域与研究热点。行人重识别的目标是给定查询的行人图像，在多个不重叠的摄像头间，自动地查找出该查询对象的所有行人图像。在实际应用中，通过将行人重识别、行人检测和行人跟踪等技术进行结合作为行人重识别系统，可应用于视频监控、刑事侦查、无人超市等领域。

2、近年来，由于深度学习的发展和计算机硬件的提升，行人重识别取得了巨大的进步。在使用场景方面，行人重识别技术日渐成熟。但是对于可视光-红外行人重识别还存在提升的空间。所谓可视光-红外行人重识别是在不同波长下分别捕获rgb行人图像和红外行人图像，从而进行跨模态检索行人身份任务。可视光-红外行人重识别摆脱了在可视光摄像头下只能拍摄rgb图像，并在可视光这一单一模态下识别行人身份，可实现在可视光-红外多模态下的全天候身份识别。

技术实现思路

1、本专利技术的目的在于提供一种基于模态共享transformer的可视光-红外行人重识别方法，克服跨模态特征提取困难、匹配困难问题，提高多模态行人重识别的准确率。

2、为实现上述目的，本专利技术所采取的技术方案为：

3、一种基于模态共享transformer的可视光-红外行人重识别方法，所述基于模态共享transformer的可视光-红外行人重识别方法，包括：

4、步

5、步骤2、将图像投影得到的特征向量与该图像的位置向量和色彩向量相结合，并将结合向量输入至transformer模型中提取全局特征；

6、步骤3、在训练前t轮中，根据三种模态的全局特征计算第一阶段训练损失，并根据第一阶段训练损失更新transformer模型；在训练t轮之后，根据三种模态的全局特征计算第二阶段训练损失，并根据第二阶段训练损失更新transformer模型，其中计算第二阶段训练损失，包括：

7、通过色彩增强损失，平衡transformer模型提取的三种模态下全局特征的色彩信息差异；

8、通过模态平衡损失，平衡可视光模态和红外模态在特征空间中与灰度模态的特征距离；

9、通过灰度中心聚类损失，对相同身份的行人特征在特征空间中聚簇；

10、基于所述色彩增强损失、模态平衡损失和灰度中心聚类损失得到第二阶段训练损失；

11、步骤4、取训练完成的transformer模型提取待重识别图像的全局特征以及图像库中图像的全局特征，根据所提取的全局特征输出行人重识别结果。

12、以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

13、作为优选，将图像投影成特征向量时，首先对图像进行均匀切割成均等的图像块，然后将切割后的图像块通过线性投影成尺寸统一的特征向量。

14、作为优选，所述将图像投影得到的特征向量与该图像的位置向量和色彩向量相结合，包括：

15、对于可视光模态，将图像投影得到的特征向量加上位置向量和色彩向量；对于灰度模态和红外模态，将图像投影得到的特征向量加上位置向量后减去色彩向量。

16、作为优选，所述第一阶段训练损失包括交叉熵损失以及样本间特征的三元组损失。

17、作为优选，所述通过色彩增强损失，平衡transformer模型提取的三种模态下全局特征的色彩信息差异，包括：

18、将图像对应的色彩向量进行拼接，并通过layer层得到色彩特征；

19、对于可视光模态，将transformer模型提取的全局特征减去色彩特征后经过layer层得到对应的结构特征；对于灰度模态和红外模态，将transformer模型提取的全局特征加上色彩特征后经过layer层得到对应的结构特征；

20、基于全局特征和结构特征计算色彩增强损失如下：

21、

22、

23、

24、式中，表示模态m的全局中心特征，p表示模型训练过程中一个批次的行人数量，k表示在一个批次内一个行人身份下图像的数量，表示行人p下第k张图像对应的模态m的全局特征，表示模态m的结构中心特征，表示行人p下第k张图像对应的模态m的结构特征，表示色彩增强损失，dist表示计算两个特征间的空间距离，rgb表示可视光模态，gray表示灰度模态，ir表示红外模态。

25、作为优选，所述通过模态平衡损失，平衡可视光模态和红外模态在特征空间中与灰度模态的特征距离，包括：

26、

27、

28、

29、式中，表示同一行人下第a张图像对应的灰度模态到可视光模态的距离，p表示模型训练过程中一个批次的行人数量，k表示在一个批次内一个行人身份下图像的数量，dist表示计算两个特征间的空间距离，表示同一行人下第a张图像对应的灰度模态的全局特征，表示同一行人下第k张图像对应的可视光模态的全局特征，表示同一行人下第a张图像对应的灰度模态到红外模态的距离，表示同一行人下第k张图像对应的红外模态的全局特征，为模态平衡损失。

30、作为优选，所述通过灰度中心聚类损失，对相同身份的行人特征在特征空间中聚簇，包括：

31、

32、

33、

34、

35、式中，dpos表示正样本对的距离度量，p表示模型训练过程中一个批次的行人数量，k表示在一个批次内一个行人身份下图像的数量，yi表示第i张图像的行人身份标签，yj表示第j张图像的行人身份标签，dist表示计算两个特征间的空间距离，firgb，ir＝{firgb，fiir}表示第i张图像的可视光模态和红外模态的全局特征，firgb表示第i张图像的可视光模态的全局特征，fiir表示第i张图像的红外模态的全局特征，表示第j张图像的灰度模态的全局特征，τ为负样本对的距离门限值，dneg表示负样本对的距离度量，表示灰度中心聚类损失。

36、作为优选，所述基于所述色彩增强损失、模态平衡损失和灰度中心聚类损失得到第二阶段训练损失，包括：

37、

38、

39、式中，表示总三元组损失，表示三元组损失，f包含了三种模态的全局特征，f＝{frgb，fgray，fir}，frgb表示训练样本的可视光模态的全局特征，fgray表示训练样本的灰度模态的全局特征，fir表示训练样本的红外模态的全局特征，表示第二阶段训练损失，为交叉熵损失，表示色彩增强损失，为模态平衡损失，表示灰度中心聚类损失，λ1、λ2和λ3分别为用本文档来自技高网...

【技术保护点】

1.一种基于模态共享transformer的可视光-红外行人重识别方法，其特征在于，所述基于模态共享transformer的可视光-红外行人重识别方法，包括：

2.根据权利要求1所述的基于模态共享transformer的可视光-红外行人重识别方法，其特征在于，将图像投影成特征向量时，首先对图像进行均匀切割成均等的图像块，然后将切割后的图像块通过线性投影成尺寸统一的特征向量。

3.根据权利要求1所述的基于模态共享transformer的可视光-红外行人重识别方法，其特征在于，所述将图像投影得到的特征向量与该图像的位置向量和色彩向量相结合，包括：

4.根据权利要求1所述的基于模态共享transformer的可视光-红外行人重识别方法，其特征在于，所述第一阶段训练损失包括交叉熵损失以及样本间特征的三元组损失。

5.根据权利要求1所述的基于模态共享transformer的可视光-红外行人重识别方法，其特征在于，所述通过色彩增强损失，平衡transformer模型提取的三种模态下全局特征的色彩信息差异，包括：

6.根据权利要求1所

7.根据权利要求1所述的基于模态共享transformer的可视光-红外行人重识别方法，其特征在于，所述通过灰度中心聚类损失，对相同身份的行人特征在特征空间中聚簇，包括：

8.根据权利要求1所述的基于模态共享transformer的可视光-红外行人重识别方法，其特征在于，所述基于所述色彩增强损失、模态平衡损失和灰度中心聚类损失得到第二阶段训练损失，包括：

...

【技术特征摘要】

1.一种基于模态共享transformer的可视光-红外行人重识别方法，其特征在于，所述基于模态共享transformer的可视光-红外行人重识别方法，包括：

5.根据权...

【专利技术属性】
技术研发人员：宦若虹，赵鑫，陈朋，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人