System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种双模态对齐的跨模态行人重识别方法技术_技高网

一种双模态对齐的跨模态行人重识别方法技术

技术编号:41138935 阅读:6 留言:0更新日期:2024-04-30 18:09
本发明专利技术公开了一种双模态对齐的跨模态行人重识别方法,首先利用双重注意力视觉transformer作为特征提取的骨干网络,可以消除背景噪声并且充分捕捉可见光和红外图像中行人的全局特征信息。其次,提出了多粒度特征互学习策略,结合域对齐和自蒸馏策略来缓解模态差异,通过设计的损失函数来增强可见光特征和红外特征之间的识别感知能力和信息交互能力。此外,设计了双模态对齐子模块,分别在模态间和模态内利用全局自注意力机制来探索两种模态之间的潜在交互作用。本发明专利技术在两个广泛使用的跨模态数据集上进行了全面的评估,证明了所提出方法的有效性。此外,还在两个被损坏的跨模态数据集上进行了评估实验,结果表明了该方法的强泛化性。

【技术实现步骤摘要】

本专利技术涉及一种双模态对齐的跨模态行人重识别方法,属于行人重识别。


技术介绍

1、行人重识别(reid)在智能安全监控系统中是一项至关重要的任务,旨在将查询集中的单个行人图像与不同摄像机拍摄的图库集中的图像进行匹配。传统的reid方法侧重于匹配可见光摄像机拍摄的行人图像,可以认定为是一个在可见光场景下的单一模态检索问题。然而,当行人出现在光线差或黑暗的环境下时,这些方法是有局限性的,因为在可见光红外的跨模态场景中,对可见光摄像头的依赖可能会导致图片匹配结果出现很大的偏差。近年来,随着各类红外传感器的出现,红外摄像机在监控系统中应用逐渐广泛。这些系统可以自动从可见光模态切换到红外模态,从而生成大量可见光红外的跨模态图片。这也就引发了一个新的问题,大家称之为可见光红外的跨模态行人重识别(vi-reid)。

2、vi-reid主要是实现在黑暗环境下捕获的红外图像和光线较好情况下拍摄的可见光图像之间的匹配。它利用可见光和红外成像提供的互补信息来解决跨模态图像匹配过程中出现的问题,通过结合两种模态的图片数据,vi-reid试图在极具挑战性的照明条件下提高行人重识别的准确性和稳健性。

3、近年来,vi-reid的研究已经引起了人们的广泛关注,由于红外模态和可见光模态存在固有的跨模态差异,vi-reid在缩小两种模态之间的差距方面极具挑战性。为此,许多研究人员提出了许多有效的解决方案,这些方法主要集中在解决模态难以对齐的问题上,在可见光和红外模态之间建立稳定的关系,并取得了很大的改进。其中,基于生成对抗性网络(gan)的方法实现了模态转换,如aligngan、jsia、cmgan等,它们在很大程度上减少了模态之间存在的差异。尽管如此,由于成像过程的异质性,红外图像中的相同灰度在可见光图像中可能是完全不同的颜色,这会导致reid模型识别的性能受到生成样本质量的限制。还有一些基于表征学习和度量学习的方法(例如dfe、mapan等)主要是通过精心设计的双流网络来提取共享模态和特定模态的特征,并通过一些有效的损失函数对网络进行优化。然而,他们只是简单地学习了粗粒度的局部或全局特征表示,导致两个模态间难以对齐。随后,park等人从人物的特征表示中抑制模态相关特征,利用可见光和红外行人图像之间的密集对应关系来解决像素级的跨模态差异。不过,总的来说,由于背景噪声和视点变化,跨模态的具有辨别性的细粒度特征无法被充分挖掘,这些方法都面临着对模态信息感知不足的问题。此外,大多数现有的双流骨干网络只是利用预训练的resnet-50模型来提取模态对齐的特征,而忽略了挖掘样本的空间和跨通道信息的潜力,导致模型的泛化能力较差。

4、因此,有必要设计一个有效的跨模态行人重识别方法来解决上述提及的问题,从而可以促进跨模态行人重识别技术在公共安全监控、刑侦追查等领域的进一步应用。


技术实现思路

1、本专利技术所要解决的技术问题是:提供一种双模态对齐的跨模态行人重识别方法,解决了现有跨模态行人重识别方法存在的模态信息感知不足、模型泛化能力较差以及模态内和模态间难以对齐的问题并突破其局限性。

2、本专利技术为解决上述技术问题采用以下技术方案:

3、一种双模态对齐的跨模态行人重识别方法,包括如下步骤:

4、步骤1,基于双重注意力视觉构建具有四个阶段的特征提取网络,用于对行人的可见光模态图片和红外模态图片进行特征提取;

5、步骤2,将特征提取网络第三阶段和第四阶段输出的特征使用多粒度特征互学习策略进行特征优化;

6、步骤3,利用双模态对齐模块对特征提取网络最终输出的特征进行特征处理;

7、步骤4,利用损失函数对网络和分类结果进行优化,并对双模态对齐模块输出的特征进行相似性度量,输出匹配结果。

8、本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:

9、1、本专利技术提出了一种新颖的双模态对齐的跨模态行人重识别方法,使用高模态感知能力的网络有效地提取了具有鉴别性的特征来解决模态间和模态内对齐的问题。利用双重注意力视觉transformer(davit)作为特征提取的骨干网络,可以消除背景噪声并且充分捕捉可见光和红外图像中行人的全局特征信息。

10、2、本专利技术设计了一个有效的多粒度特征互学习策略,通过结合域对齐和自蒸馏策略来缓解模态差异,并利用域最大平均差异损失和相互学习损失来增强可见光特征和红外特征之间的识别感知能力和信息交互能力。

11、3、本专利技术提出了一种基于全局自注意机制的模态间和模态内对齐模块来探索模态间和模态内的潜在交互作用,解决了全局特征感知不足的问题。在两个广泛使用的跨模态数据集上进行了全面的评估,证明了所提出方法的有效性。此外,还在两个被损坏的跨模态数据集上进行了评估实验,表明该方法的强泛化性。

本文档来自技高网...

【技术保护点】

1.一种双模态对齐的跨模态行人重识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的双模态对齐的跨模态行人重识别方法,其特征在于,所述步骤1的具体过程如下:

3.根据权利要求1所述的双模态对齐的跨模态行人重识别方法,其特征在于,所述步骤2的具体过程如下:

4.根据权利要求3所述的双模态对齐的跨模态行人重识别方法,其特征在于,所述步骤3的具体过程如下:

5.根据权利要求1所述的双模态对齐的跨模态行人重识别方法,其特征在于,所述步骤4中,利用身份损失LID和中心损失LCC对网络和分类结果进行优化,身份损失LID和中心损失LCC分别表示为:

6.一种计算机设备,包括存储器、处理器,以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的双模态对齐的跨模态行人重识别方法的步骤。

7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的双模态对齐的跨模态行人重识别方法的步骤。

...

【技术特征摘要】

1.一种双模态对齐的跨模态行人重识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的双模态对齐的跨模态行人重识别方法,其特征在于,所述步骤1的具体过程如下:

3.根据权利要求1所述的双模态对齐的跨模态行人重识别方法,其特征在于,所述步骤2的具体过程如下:

4.根据权利要求3所述的双模态对齐的跨模态行人重识别方法,其特征在于,所述步骤3的具体过程如下:

5.根据权利要求1所述的双模态对齐的跨模态行人重识别方法,其特征在于,所述步骤4中,利用身份损失l...

【专利技术属性】
技术研发人员:邓淑雅程旭
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1