【技术实现步骤摘要】
本专利技术涉及计算机视觉与数字图像处理,尤其是一种基于视觉语言预训练模型的提示增强图像重识别方法。
技术介绍
1、图像重识别任务的目的是在候选图像集gallery中,跨摄像头地检索给定查询图片query中的特定对象。然而,由于背景噪声、光照变化、姿势变化和遮挡等多种因素的影响,准确提取图像特征具有挑战性。深度神经网络因为能够将图像映射为特征向量,并有效使得具有相同身份的图像特征有更高的相似性而被广泛应用。通常,神经网络的参数是通过最小化损失项来获得的,这些损失项包括交叉熵损失和度量学习损失等。通过在图像重识别任务的数据集上进行适当训练,卷积神经网络通常能够获得令人满意的结果,而transformer架构也在该任务上展示出卓越的性能。
2、尽管网络结构和损失函数在这个任务中得到了发展,但模型的初始化常常被忽视。传统的图像重识别方法通常使用在imagenet数据集上预训练的单模态视觉模型作为微调的初始模型。近年来,视觉语言预训练通过在更大规模的图像文本匹配数据集上进行训练,将视觉特征和文本特征进行匹配,使跨模态的视觉语言模型具备
...【技术保护点】
1.一种基于视觉语言预训练模型的提示增强图像重识别方法,挖掘了视觉语言预训练模型的先验知识,利用视觉提示和文本提示增强其图像编码器,并使用优化后的图像编码器生成图像特征进行图像重识别,其特征在于,该方法包括以下具体步骤:
2.根据权利要求1所述的提示增强图像重识别方法,其特征在于,所述文本编码器和图像编码器都基于Transformer网络。
3.根据权利要求1所述的提示增强图像重识别方法,其特征在于,所述文本提示在训练集中不同身份之间参数不共享;所述视觉提示对整个数据集的所有图像参数共享。
4.根据权利要求1所述的提示增强图像重识别
...【技术特征摘要】
1.一种基于视觉语言预训练模型的提示增强图像重识别方法,挖掘了视觉语言预训练模型的先验知识,利用视觉提示和文本提示增强其图像编码器,并使用优化后的图像编码器生成图像特征进行图像重识别,其特征在于,该方法包括以下具体步骤:
2.根据权利要求1所述的提示增强图像重识别方法,其特征在于,所述文本编码器和图像编码器都基于tra...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。