一种基于模态转换的跨模态行人再识别方法技术

技术编号：41382340 阅读：4 留言：0更新日期：2024-05-20 10:23

本发明专利技术公开了一种基于模态转换的跨模态行人再识别方法，涉及计算机视觉技术领域，该方法包括如下步骤：通过多台图像拍摄设备获取目标场景的图像数据集；图像数据集包括可见光图像和红外图像；基于训练好的行人图像模态转换模型，将可见光图像转化为对应的伪红外图像；通过优化后的行人再识别模型，分别提取红外图像和伪红外图像的行人特征并进行匹配，根据匹配结果获得跨模态行人再识别结果。该方法将可见光图像转化为伪红外图像，减弱了模态间的表观差异；基于优化后的行人再识别模型，提升了跨模态行人再识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，更具体的说是涉及一种基于模态转换的跨模态行人再识别方法。

技术介绍

1、传统的行人再识别（person-reid）技术面临着一个主要挑战，即如何处理不同模态如可见光rgb和红外ir图像间的显著差异，其中红外包括红外和热红外。在可见光和红外图像之间存在本质上的光谱差异，导致基于可见光图像训练的行人再识别模型直接应用到红外图像上时，难以取得理想的效果。此外，夜间或低光照条件下，可见光图像的质量大幅下降，进一步加剧了跨模态行人再识别的难度。

2、为了解决这些问题，一些研究尝试采用模态对齐、特征融合或空间映射的技术来减少不同模态之间的差异。如，专利202310569837.7通过模态去相关来减少模态差异；专利202211239389.6和专利202310690991.x都通过损失函数约束来减少模态间的差异；专利202310963056.6提出了过度模态的概念，专利202111401063.4引入了分布空间。然而，这些方法往往需要额外的计算过程，且对于模态间的不一致性处理不够彻底。相比之下，直接将可见光图像转化为红外图像，然后使用已经在红外图像上表现良好的行人再识别算法，可以更有效地消除模态间的差异，同时简化行人再识别算法的复杂度

3、扩散模型（diffusion model）在图像风格转换方面已显示出良好的效果和巨大的应用前景。应用扩散模型将可见光图像转换为质量高、细节丰富的伪红外图像（生成的红外图像），不仅有助于解决传统跨模态行人再识别中的模态差异问题，同时也为在各种光照条件下进行准确

4、因此，如何有效进行可见光到红外图像转换，并改进现有的行人再识别技术，提升跨模态行人再识别的准确率，是本领域技术人员亟需解决的问题。

技术实现思路

1、鉴于上述问题，本专利技术提供一种基于模态转换的跨模态行人再识别方法，以至少解决上述
技术介绍
中提到的部分技术问题。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、本专利技术提供了一种基于模态转换的跨模态行人再识别方法，包括如下步骤：

4、s1、通过多台图像拍摄设备获取目标场景的图像数据集；所述图像数据集包括可见光图像和红外图像；

5、s2、基于训练好的行人图像模态转换模型，将所述可见光图像转化为对应的伪红外图像；

6、s3、通过优化后的行人再识别模型，分别提取所述红外图像和所述伪红外图像的行人特征并进行匹配，根据匹配结果获得跨模态行人再识别结果。

7、进一步地，所述行人图像模态转换模型的训练步骤包括：

8、p1、对每台所述图像拍摄设备拍摄到的图像进行对应的设备编码；以及对所述图像数据集中每张图像进行语义分割处理，获得每张图像的行人掩码；

9、p2、采用去噪扩散概率模型构建行人图像模态转换模型；

10、p3、将所述设备编码和所述行人掩码嵌入到所述行人图像模态转换模型的自注意力层中，对所述行人图像模态转换模型进行训练。

11、进一步地，在训练过程中，分别对所述可见光图像和所述红外图像进行加噪处理，之后采用所述去噪扩散概率模型进行噪声预测，实现对所述去噪扩散概率模型和所述行人图像模态转换模型的联合训练。

12、进一步地，所述步骤s2具体包括：

13、s21、将一维的高斯噪声与所述可见光图像一同输入至去噪扩散概率模型进行去噪预测；

14、s22、在所述去噪扩散概率模型的推力过程中，将所述设备编码和所述行人掩码加入每个注意力层中；

15、s23、经过预设轮次的迭代，根据最后一次迭代的噪声生成第0步的伪红外图像。

16、进一步地，所述行人再识别模型的优化步骤包括：

17、步骤一：根据批训练原则进行行人再识别模型输入数据的准备工作，每个批次包含预设数量的行人id，且每个行人id包含n张生成的伪红外图像和n张红外图像；

18、步骤二：构建行人再识别模型并加载开源预训练模型的参数，提取伪红外图像特征和红外图像特征，并根据所述伪红外图像特征和所述红外图像特征生成对应的伪红外图像得分与红外图像得分；

19、步骤三：基于所述伪红外图像得分与所述红外图像得分，构建跨模态对齐约束损失函数；

20、步骤四：根据所述跨模态对齐约束损失函数，对行人再识别模型进行优化训练。

21、进一步地，所述跨模态对齐约束损失函数表示为：

22、

23、其中，l表示跨模态对齐约束损失函数；和均表示可训练权重；表示伪红外图像相关的损失函数；表示红外图像相关的损失函数；表示对偶红外图像相关的损失函数。

24、进一步地，所述伪红外图像相关的损失函数包括第一交叉熵损失和第一三元组损失；具体表示为：

25、

26、其中，表示第一交叉熵损失；表示第一三元组损失；n表示每个行人的伪红外图像数量；c表示当前批次行人身份类别的数量；表示第c个行人的第i张伪红外图像对应的真实标签；表示第c个行人第i张伪红外图像对应的得分；m表示预设的边际参数；表示当前批次第c个行人伪红外图像中正样本的特征向量；表示当前批次第c个行人伪红外图像中负样本的特征向量；表示当前批次第c个行人的伪红外锚点特征向量；d表示欧式距离。

27、进一步地，所述红外图像相关的损失函数包括第二交叉熵损失和第二三元组损失；具体表示为：

28、

29、其中，表示第二交叉熵损失；表示第二三元组损失；n表示每个行人的红外图像数量；c表示当前批次行人身份类别的数量；表示第c个行人的第i张红外图像对应的真实标签；表示第c个行人第i张红外图像对应的得分；m表示预设的边际参数；表示当前批次第c个行人红外图像中正样本的特征向量；表示当前批次第c个行人红外图像中负样本的特征向量；表示当前批次第c个行人的红外锚点特征向量；d表示欧式距离。

30、进一步地，所述对偶红外图像代表同时包含红外图像和伪红外图像；所述对偶红外图像相关的损失函数包括第三交叉熵损失和第三三元组损失；具体表示为：

31、

32、其中，表示第三交叉熵损失；表示第三三元组损失；n表示每个行人的伪红外图像数量或红外图像数量；c表示行人身份类别的数量；表示第c个行人的第i张伪红外图像或红外图像对应的真实标签；表示第c个行人第i张伪红外图像或红外图像对应的得分；m表示预设的边际参数；表示当前批次第c个行人正样本的特征向量；表示当前批次第c个行人负样本的特征向量；表示当前批次第c个行人的锚点特征向量；d表示欧式距离。

33、进一步地，所述红外图像包括近红外图像或热红外图像。

34、经由上述的技术方案可知，与现有技术相比，本专利技术公开提供了一种基于模态转换的跨模态行人再识别方法，具有如下有益效果：本专利技术将可见光图像转化为伪红外图像，减弱了模态间的表观差异；基于优化后的行人再识别模型，本文档来自技高网...

【技术保护点】

1.一种基于模态转换的跨模态行人再识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述行人图像模态转换模型的训练步骤包括：

3.根据权利要求2所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，在所述步骤P3中，在训练过程中，分别对所述可见光图像和所述红外图像进行加噪处理，之后采用所述去噪扩散概率模型进行噪声预测，实现对所述去噪扩散概率模型和所述行人图像模态转换模型的联合训练。

4.根据权利要求3所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述步骤S2具体包括：

5.根据权利要求1所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述行人再识别模型的优化步骤包括：

6.根据权利要求5所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述跨模态对齐约束损失函数表示为：

7.根据权利要求5所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述伪红外图像相关的损失函数包括第一交叉熵损失和第一三元组损失；具体表示为：

8.根据权利要求5所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述红外图像相关的损失函数包括第二交叉熵损失和第二三元组损失；具体表示为：

9.根据权利要求6所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述对偶红外图像代表同时包含红外图像和伪红外图像；所述对偶红外图像相关的损失函数包括第三交叉熵损失和第三三元组损失；具体表示为：

10.根据权利要求1所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述红外图像包括近红外图像或热红外图像。

...

【技术特征摘要】

1.一种基于模态转换的跨模态行人再识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述行人图像模态转换模型的训练步骤包括：

3.根据权利要求2所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，在所述步骤p3中，在训练过程中，分别对所述可见光图像和所述红外图像进行加噪处理，之后采用所述去噪扩散概率模型进行噪声预测，实现对所述去噪扩散概率模型和所述行人图像模态转换模型的联合训练。

4.根据权利要求3所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述步骤s2具体包括：

5.根据权利要求1所述的一种基于模态转换的跨模态行人再识别方法，其特征在于，所述行人再识别模型的优化步骤包括：

6.根据权利要求5所述的一种基于...

【专利技术属性】
技术研发人员：牛广林，袁超，李波，张贵伟，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人