一种基于视觉语言预训练模型的提示增强图像重识别方法技术

技术编号:41665739 阅读:24 留言:0更新日期:2024-06-14 15:24
本发明专利技术公开了一种基于视觉语言预训练模型的提示增强图像重识别方法,其特点是设置了数据集共享的视觉提示和身份特定的文本提示,固定图像编码器和文本编码器,将图像和视觉提示送入图像编码器,文本和文本提示送入文本编码器;计算文本到图像和图像到文本的对比损失函数,以优化视觉和文本提示;固定文本编码器和文本提示,生成并保存每个身份的文本特征,将图像和视觉提示送入图像编码器,计算每个身份的图像特征中心,用于初始化图像存储库;计算图像到文本和图像到中心的交叉熵损失函数,以优化图像编码器;最后使用图像编码器获得用于图像重识别的特征。与现有技术相比,本发明专利技术采用视觉提示和文本提示增强其图像编码器,有效提高了准确率。

【技术实现步骤摘要】

本专利技术涉及计算机视觉与数字图像处理,尤其是一种基于视觉语言预训练模型的提示增强图像重识别方法


技术介绍

1、图像重识别任务的目的是在候选图像集gallery中,跨摄像头地检索给定查询图片query中的特定对象。然而,由于背景噪声、光照变化、姿势变化和遮挡等多种因素的影响,准确提取图像特征具有挑战性。深度神经网络因为能够将图像映射为特征向量,并有效使得具有相同身份的图像特征有更高的相似性而被广泛应用。通常,神经网络的参数是通过最小化损失项来获得的,这些损失项包括交叉熵损失和度量学习损失等。通过在图像重识别任务的数据集上进行适当训练,卷积神经网络通常能够获得令人满意的结果,而transformer架构也在该任务上展示出卓越的性能。

2、尽管网络结构和损失函数在这个任务中得到了发展,但模型的初始化常常被忽视。传统的图像重识别方法通常使用在imagenet数据集上预训练的单模态视觉模型作为微调的初始模型。近年来,视觉语言预训练通过在更大规模的图像文本匹配数据集上进行训练,将视觉特征和文本特征进行匹配,使跨模态的视觉语言模型具备更优秀的特征提取能力本文档来自技高网...

【技术保护点】

1.一种基于视觉语言预训练模型的提示增强图像重识别方法,挖掘了视觉语言预训练模型的先验知识,利用视觉提示和文本提示增强其图像编码器,并使用优化后的图像编码器生成图像特征进行图像重识别,其特征在于,该方法包括以下具体步骤:

2.根据权利要求1所述的提示增强图像重识别方法,其特征在于,所述文本编码器和图像编码器都基于Transformer网络。

3.根据权利要求1所述的提示增强图像重识别方法,其特征在于,所述文本提示在训练集中不同身份之间参数不共享;所述视觉提示对整个数据集的所有图像参数共享。

4.根据权利要求1所述的提示增强图像重识别方法,其特征在于,所...

【技术特征摘要】

1.一种基于视觉语言预训练模型的提示增强图像重识别方法,挖掘了视觉语言预训练模型的先验知识,利用视觉提示和文本提示增强其图像编码器,并使用优化后的图像编码器生成图像特征进行图像重识别,其特征在于,该方法包括以下具体步骤:

2.根据权利要求1所述的提示增强图像重识别方法,其特征在于,所述文本编码器和图像编码器都基于tra...

【专利技术属性】
技术研发人员:孙力李思源
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1