基于冻结视觉和语言模型的开放词汇对象检测制造技术

技术编号:44581778 阅读:40 留言:0更新日期:2025-03-14 12:43
提供了一种基于冻结视觉和语言模型(VLM)来训练检测器头以对训练对象类别进行对象检测的示例方法。该方法包括接收在多个图像‑文本对上预训练的该冻结VLM。该方法包括对于由该冻结VLM的预训练的图像编码器和由该检测器头生成的图像嵌入,确定指示图像中的一个或多个感兴趣区域的检测区域嵌入。该方法包括由该冻结VLM的预训练的文本编码器生成该训练对象类别的文本嵌入。该方法包括由该检测器头基于该检测区域嵌入和该训练对象类别的该文本嵌入来预测来自与该训练对象类别相关联的目标对象词汇的对象。该方法包括提供该预训练的冻结VLM和经过训练的检测器头。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、对象检测是一种通常基于算法来定位和辨识图像中的对象的视觉任务。对象检测需要跨各种尺度的对象的辨识和定位。


技术实现思路

1、一些对象检测模型依赖于经过训练的词汇,因此不适合于开放词汇对象检测。一般来说,开放词汇对象检测可以利用其他监督源,诸如图像字幕或视觉和语言预训练。由于需要区域层级泛化,除了标准检测训练之外,这样的方法通常还涉及知识提炼、对外部数据的区域提炼、或使用图像层级字幕进行预训练。一些方法依赖于预训练的视觉和语言模型(vlm)进行泛化。vlm能够为视觉和语言领域生成丰富的知识和强大的表示。然而,在许多vlm中,整个检测器头可能需要从头开始进行训练。一些vlm依赖于单独的预训练和微调过程。然而,这些模型可能缺乏扩展能力,并且检测的重新训练、预训练和/或微调可能是计算资源密集型的。

2、因此,需要一种简单且可扩展的开放词汇检测方法,该开放词汇检测方法可以使用轻量级检测器头提取局部敏感信息。具体来说,如本文所描述,可以在冻结vlm主干上训练检测器头,并且可以将检测器头的检测分本文档来自技高网...

【技术保护点】

1.一种基于冻结视觉和语言模型(VLM)来训练检测器头以对训练对象类别进行对象检测的计算机实现的方法,包括:

2.如权利要求1所述的计算机实现的方法,其中所述对象的所述预测包括:

3.如权利要求2所述的计算机实现的方法,其中所述对象的所述预测包括训练所述检测器头以预测与所述一个或多个感兴趣区域相对应的一个或多个对象检测框和相关联掩模,并且其中所述一个或多个检测分数与一个或多个所预测的对象检测框相关联。

4.如权利要求1所述的计算机实现的方法,其中所述检测器头的所述训练基于框区域损失、框分类损失或掩模分类损失中的一个或多个。

<p>5.如权利要求1...

【技术特征摘要】
【国外来华专利技术】

1.一种基于冻结视觉和语言模型(vlm)来训练检测器头以对训练对象类别进行对象检测的计算机实现的方法,包括:

2.如权利要求1所述的计算机实现的方法,其中所述对象的所述预测包括:

3.如权利要求2所述的计算机实现的方法,其中所述对象的所述预测包括训练所述检测器头以预测与所述一个或多个感兴趣区域相对应的一个或多个对象检测框和相关联掩模,并且其中所述一个或多个检测分数与一个或多个所预测的对象检测框相关联。

4.如权利要求1所述的计算机实现的方法,其中所述检测器头的所述训练基于框区域损失、框分类损失或掩模分类损失中的一个或多个。

5.如权利要求1所述的计算机实现的方法,其中所述检测器头包括第一级和第二级,并且其中所述检测区域嵌入的所述确定由所述第一级执行,并且其中所述文本嵌入的确定由所述第二级执行。

6.如权利要求1所述的计算机实现的方法,其中所述检测器头是神经网络。

7.如权利要求6所述的计算机实现的方法,其中所述检测器头是mask r-cnn或fasterr-cnn中的一个。

8.如权利要求1所述的计算机实现的方法,其中所述检测器头进一步包括特征金字塔网络。

9.如权利要求1所述的计算机实现的方法,其中基于对比学习联合训练所述冻结vlm的所述预训练的文本编码器和所述预训练的图像编码器。

10.如权利要求1所述的计算机实现的方法,其中所述预训练的图像编码器包括(i)用于生成所述图像的图像表示的特征提取器,以及(ii)特征池化层。

11.如权利要求10所述的计算机实现的方法,其中所述特征提取器包括resnet-50架构。

12.如权利要求10所述的计算机实现的方法,其中所述特征池化层是所述图像编码器的注意力层。

13.如权利要求1所述的计算机实现的方法,其进一步包括:

14.如权利要求1所述的计算机实现的方法,其进一步包括:

15.一种基于冻结视觉和语言模型(vlm)来应用经过训练的检测器头以对训练对象类别进行对象检测的计算机实现的方法,包括:

16.如权利要求15所述的计算机实现的方法,其中所述对象的所述预测包括:

17.如权利要求16所述的计算机实现的方法,其中所述对象的所述预测包括预测与所述一个或多个感兴趣区域相对应的一个或多个对象检测框和相关联掩模,...

【专利技术属性】
技术研发人员:W·郭Y·崔X·古A·J·皮尔吉奥瓦尼A·安格洛瓦
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1