一种多模态视觉语言理解与定位方法、装置、终端及介质制造方法及图纸

技术编号：37534349 阅读：10 留言：0更新日期：2023-05-12 16:01

本发明专利技术公开了一种多模态视觉语言理解与定位方法、装置、终端及介质，包括：构建视觉语言理解与定位模型；对未标注的图像数据进行处理，生成多个伪标签源；分别学习每一个源的视觉语言理解与定位模型；根据多源自步自适应算法，依据每一个源的表达文本的平均实体数由易到难逐步选择全部伪数据源；根据所述多源自步自适应算法，对图像和伪标签的每个配对数据进行样本实例级可靠性计算，通过可靠性评估器选择、可靠性阈值选择以及贪心算法获得最优样本子集，根据最优样本子集学习最优的视觉语言理解与定位模型；本发明专利技术提出无监督的视觉语言理解与定位方法，可以基于多源伪标签对多模态基础大模型CLIP进行自适应，以解决无监督视觉定位的问题。位的问题。位的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态视觉语言理解与定位方法、装置、终端及介质

[0001]本专利技术涉及无监督视觉定位
，尤其涉及的是一种多模态视觉语言理解与定位方法、装置、终端及介质。

技术介绍

[0002]视觉语言理解与定位，简称视觉定位(Visual grounding，VG)，又称指代表达理解(Reference Expression Comprehension，REC)或短语定位(Phrase grounding，PG)，是指在特定图像中定位文本表达所描述的边界框的区域，这一技术已成为人工智能人机交互的关键技术之一。由于视觉语言理解与定位模型具有跨模态特性，需要同时理解语言表达和图像的语义，这一直是一项复杂而富有挑战性的任务。
[0003]考虑到视觉定位任务的复杂性，大多数现有的方法集中于全监督设置(即使用手工标注的图片
‑
文本
‑
边界框构成的三元组数据作为监督信号)。然而，在有监督的视觉定位中，对标注的质量有严格的要求。具体来说，文本表达需要满足：其一，需要与边界框配对；其二，指代唯一；其三，表达的语义要丰富。为了减轻对标注数据的依赖，弱监督设置(即只给定图像和文本查询对，没有边界框)和无监督视觉定位(即不使用任何与任务相关的标注来实现图像目标区域的定位)最近越来越受到关注。
[0004]现有的无监督视觉定位的方法主要是利用预训练的检测器和特定的语料库实现对未配对数据的指代文本的定位。最先进的方法使用手工设计的模板来匹配现成的目标和属性检测器检测到的结果(例如，“属性/>‑
关系
‑
名词”，“Attr
‑
Rela
‑
Noun”，“standing rightman”)。从而通过这种方式，生成了表达文本和边界框的伪配对数据，并将其作为伪标注，以有监督的方式学习视觉语言理解与定位模型。然而，现有方法中的这些伪标注的有效性在很大程度上依赖于目标或属性检测器，而目标或属性检测器总是在特定的数据集上预训练的，例如，MSCOCO数据集，这可能会限制匹配模式的多样性和上下文语义的丰富性。
[0005]在过去的几年里，视觉和语言基础模型(例如，CLIP模型，即Contrastive Language
‑
Image Pre
‑
Training)通过使用少量任务相关的数据进行adapting(适应)或prompting(提示)，在许多下游任务上取得了出色的结果。这些基础模型的主要优点是，它们可以从现成的具有自监督约束的网络数据中学习泛化的知识。这可以考虑利用预训练的模型来解决无监督视觉定位问题。但是，由于缺乏与任务相关的标注数据，这是一项具有挑战性的任务。一种直接的解决方案是利用在以前的无监督视觉定位方法中生成的伪标签来微调预训练的模型。但是，由于伪标注与相应的特定任务的ground truth(真值)标注之间存在差异，这必然会影响预训练模型的泛化能力。
[0006]事实上，除了目标或属性检测之外，许多其他任务，如Scene Graph Generation(场景图生成)和Image caption(图像描述)，都与视觉语言理解与定位密切相关。虽然这些任务与视觉定位有不同的标注，但这些模型的预测结果可以很容易地扩展到表达文本和边界框的伪配对数据，从而可以帮助CLIP在无监督视觉定位问题中实现自适应。在这些任务中学习到的现成模型可以为无监督视觉定位轻松地扩展伪标签源，从而提供零成本的标注
信息。虽然这些标签是零成本的，但也可能带来对VG有害的噪声。
[0007]因此，需要一方面利用多源伪标签带来的多样性，另一方面也要减轻噪声的影响。

技术实现思路

[0008]本专利技术要解决的技术问题在于，针对现有技术缺陷，本专利技术提供一种多模态视觉语言理解与定位方法、装置、终端及介质，以解决现有的无监督视觉定位的方法的伪标签泛化能力差及噪声高的技术问题。
[0009]本专利技术解决技术问题所采用的技术方案如下：
[0010]第一方面，本专利技术提供一种多模态视觉语言理解与定位方法，包括：
[0011]构建视觉语言理解与定位模型；
[0012]对未标注的图像数据进行处理，生成多个伪标签源；
[0013]分别学习每一个源的视觉语言理解与定位模型，并将学习到的模型作为可靠性评估器；其中，所述可靠性评估器用于评估并获得样本的特定源可靠性和跨源可靠性；
[0014]根据多源自步自适应算法，依据每一个源的表达文本的平均实体数对多个所述伪标签源进行排序，由易到难逐步选择全部伪数据源；
[0015]根据所述多源自步自适应算法，在每一个当前选择的伪数据源中，分别从特定源可靠性和跨源可靠性对图像和伪标签的每个配对数据进行样本实例级可靠性计算，通过固定可靠性阈值、固定可靠性评估器的方式，依次选出最优可靠性评估器和最优可靠性阈值；
[0016]以贪心的方式筛选出当前源伪样本数据并添加至总样本子集，逐步扩大并获得最优样本子集，根据最优样本子集学习最优的视觉语言理解与定位模型。
[0017]在一种实现方式中，所述对未标注的图像数据进行处理，之前包括：
[0018]定义未标注的图像数据集I和n个不同源的伪三元组数据
[0019]其中，S
i
＝(I,E
i
,B
i
)，E
i
表示第i个源的伪表达的集合，B
i
表示边界框的集合；
[0020]定义测试数据集D
t
＝(I
t
,E
t
,B
t
)和学习目标模型；
[0021]其中，所述学习目标模型为：
[0022][0023]F
θ
:(I,E)
→
B为基于D
s
的模型；
[0024]l表示损失函数。
[0025]在一种实现方式中，所述对未标注的图像数据进行处理，生成多个伪标签源，包括：
[0026]通过目标检测器对所述未标注的图像数据进行处理，生成模板表达伪标签源；
[0027]通过场景图生成器对所述未标注的图像数据进行处理，生成关系表达伪标签源；
[0028]通过图像标题生成器对所述未标注的图像数据进行处理，生成标题表达伪标签源。
[0029]在一种实现方式中，所述通过所述目标检测器对所述未标注的图像数据进行处理，生成模板表达伪标签源，包括：
[0030]通过所述目标检测器和属性检测器生成若干种模板；
[0031]根据若干种所述模板生成所述模板表达伪标签源的词汇表达。
[0032]在一种实现方式中，所述通过所述场景图生成器对所述未标注的图像数据进行处理，生成关系表达伪标签源，包括：
[0033]通过所述场景图生成模型将场景图关系作为表达文本，并将场景图中主语的边界框作为表达文本的边界框，生成所述关系本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种多模态视觉语言理解与定位方法，其特征在于，包括：构建视觉语言理解与定位模型；对未标注的图像数据进行处理，生成多个伪标签源；分别学习每一个源的视觉语言理解与定位模型，并将学习到的模型作为可靠性评估器；其中，所述可靠性评估器用于评估并获得样本的特定源可靠性和跨源可靠性；根据多源自步自适应算法，依据每一个源的表达文本的平均实体数对多个所述伪标签源进行排序，由易到难逐步选择全部伪数据源；根据所述多源自步自适应算法，在每一个当前选择的伪数据源中，分别从特定源可靠性和跨源可靠性对图像和伪标签的每个配对数据进行样本实例级可靠性计算，通过固定可靠性阈值、固定可靠性评估器的方式，依次选出最优可靠性评估器和最优可靠性阈值；以贪心的方式筛选出当前源伪样本数据并添加至总样本子集，逐步扩大并获得最优样本子集，根据最优样本子集学习最优的视觉语言理解与定位模型。2.根据权利要求1所述的多模态视觉语言理解与定位方法，其特征在于，所述对未标注的图像数据进行处理，之前包括：定义未标注的图像数据集I和n个不同源的伪三元组数据其中，S
i
＝(I,E
i
,B
i
)，E
i
表示第i个源的伪表达的集合，B
i
表示边界框的集合；定义测试数据集D
t
＝(I
t
,E
t
,B
t
)和学习目标模型；其中，所述学习目标模型为：F
θ
:(I,E)
→
B为基于D
s
的模型；l表示损失函数。3.根据权利要求1所述的多模态视觉语言理解与定位方法，其特征在于，所述对未标注的图像数据进行处理，生成多个伪标签源，包括：通过目标检测器对所述未标注的图像数据进行处理，生成模板表达伪标签源；通过场景图生成器对所述未标注的图像数据进行处理，生成关系表达伪标签源；通过图像标题生成器对所述未标注的图像数据进行处理，生成标题表达伪标签源。4.根据权利要求3所述的多模态视觉语言理解与定位方法，其特征在于，所述通过所述目标检测器对所述未标注的图像数据进行处理，生成模板表达伪标签源，包括：通过所述目标检测器和属性检测器生成若干种模板；根据若干种所述模板生成所述模板表达伪标签源的词汇表达。5.根据权利要求3所述的多模态视觉语言理解与定位方法，其特征在于，所述通过所述场景图生成器对所述未标注的图像数据进行处理，生成关系表达伪标签源，包括：通过所述场景图生成模型将场景图关系作为表达文本，并将场景图中主语的边界框作为表达文本的边界框，生成所述关系表达伪标签源。6.根据权利要求3所述的多模态视觉语言理解与定位方法，其特征在于，所述通过所述图像标题生成器对所述未标注的图像数据进行处理，生成标题表达伪标签源，包括：通过语言解析器解析生成伪句子的主语，并将所述主语与图像的检测结果进行配对；
根据配对结果将检测器检测到的边界框与对应的伪句子进行配对，得到所述标题表达伪标签源。7.根据权利要求1所述的多模态视觉语言理解与定位方法，其特征在于，所述视觉语言理解与定位模型包括：图像编码器、文本编码器以及视觉语言跨模态融合定位模块。8.根据权利要求7所述的多模态视觉语言理解与定位方法，其特征在于，...

【专利技术属性】
技术研发人员：王耀威，肖麟慧，杨小汕，徐常胜，彭芳，胡孟豪，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人