当前位置: 首页 > 专利查询>四川大学专利>正文

元学习视觉语言理解与定位方法技术

技术编号:39516247 阅读:9 留言:0更新日期:2023-11-25 18:53
本发明专利技术提供了一种元学习视觉语言理解与定位方法,包括:构建训练集;构建元学习视觉语言理解与定位训练模型;构建基于随机不相关训练机制的元学习内层循环训练,并利用支持集对基础学习器的参数进行更新;利用更新后的基础学习器参数对训练集中的查询集计算损失,并反向优化元学习视觉语言理解与定位训练模型;利用优化后的元学习视觉语言理解与定位训练模型编码测试图片

【技术实现步骤摘要】
元学习视觉语言理解与定位方法


[0001]本专利技术属于多模态视觉语言理解与定位
,尤其涉及一种元学习视觉语言理解与定位方法


技术介绍

[0002]视觉语言理解与定位(
visual grounding

VG
)是指通过自然语言表达来准确定位图像中的目标区域或对象

简单来说,就是通过输入一张图片和对应的物体文本描述,输出被描述物体在图片中的定位框坐标

在视觉语言理解与定位任务中,被描述的物体通常由文本描述中的一个或多个信息片段来指定

信息可能包括物体对象属性

外观属性和视觉关系上下文等

视觉语言理解与定位任务结合了计算机视觉和自然语言理解,以增强图像的理解和分析能力

此外,它还支持诸如图像描述生成

图像文本检索和视觉语言问答等应用

总的来说,视觉语言理解与定位技术在推动计算机视觉和自然语言理解结合的众多领域的发展中起着至关重要的作用,具有重要的研究意义

[0003]近年来,诸多深度视觉语言理解与定位方法已经被探索出来,它们借助于神经网络提取出图片的视觉特征及对应图片中物体的文本描述的语言特征,再经过特征融合生成最后的定位框

这些方法主要分为三类:两阶段方法

一阶段方法和基于
Transformer
的方法两阶段方法模型在初始阶段生成候选框区域,在随后的阶段将这些候选框与文本描述进行匹配,然后对候选框进行排序选择最终的定位框,但在这类方法中候选框的排序和选择需要较大的计算量,且无法穷尽所有可能即得到的候选框也是次优的

一阶段方法直接将文本描述与图像特征融合,并直接预测边界框来定位提到的对象,通过对可能的目标位置进行密集采样,减少区域建议上的冗余计算,相比于两阶段方法,一阶段方法在计算量上有了较大程度地减少,但是其仍然是基于通用的对象检测器,推断过程依赖于所有可能的候选区域的预测结果,这使得性能受到预测建议的质量或预定义锚框配置的限制

此外,不管是两阶段方法还是一阶段方法,实质上都是将候选对象表示为区域特征(对应于预测的建议)或点特征(密集锚框的特征),以与文本描述的语言特征进行匹配或融合,这种特征表示可能对捕捉文本描述中提到的详细视觉概念或上下文的灵活性较差,这种不灵活性增加了识别目标对象的困难

随着基于注意力机制的
Transformer
模型的发展,现在的视觉语言理解与定位方法已经基于
Transformer
实现了对定位框坐标进行直接回归,在基于
Transformer
的视觉语言理解与定位方法中,
Transformer
模型的核心组件注意力层在视觉和语言输入之间建立模态内部和模态间的对应关系,直接利用深度模型将跨模态数据回归成一个定位框

然而,不管是两阶段方法

一阶段方法还是最近的基于
Transformer
的方法,都会在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,引起模型过拟合,极大地影响了视觉语言理解与定位模型的定位精度


技术实现思路

[0004]针对现有技术中的上述不足,本专利技术提供的一种元学习视觉语言理解与定位方法,解决了视觉语言理解与定位任务训练时的收敛慢

训练不稳定问题以及在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,引起模型过拟合,进而降低了视觉语言理解与定位精度的问题

[0005]为了达到以上目的,本专利技术采用的技术方案为:本方案提供一种元学习视觉语言理解与定位方法,包括以下步骤:
S1、
在元学习的每一轮迭代训练中,将目标视觉语言理解与定位数据集随机划分为没有重复数据的支持集和查询集,构建训练集,且每一轮参与元学习迭代训练的支持集与查询集不相关;
S2、
根据输入的样本对,构建元学习视觉语言理解与定位训练模型,其中,所述输入的样本对为图片

文本描述样本对;
S3、
构建基于随机不相关训练机制的元学习内层循环训练,并利用支持集对基础学习器的参数进行更新;
S4、
利用更新后的基础学习器参数对训练集中的查询集计算损失,并反向优化元学习视觉语言理解与定位训练模型,以完成元学习的外层循环训练;
S5、
利用优化后的元学习视觉语言理解与定位训练模型编码测试图片

文本描述样本对,输出被描述物体在图片中的定位框

[0006]本专利技术的有益效果是:本专利技术基于随机不相关训练机制对元学习视觉语言理解与定位训练模型的内层和外层进行循环训练优化,并利用优化后的元学习视觉语言理解与定位训练模型输出测试图片

文本描述样本对中被描述物体在图片中的定位框

本专利技术提出了一种随机不相关的训练机制,使得元学习视觉语言理解与定位训练模型能直接在视觉语言理解与定位数据集上进行元学习迭代训练,提高了模型的泛化能力;利用元学习迭代训练加快了视觉语言理解与定位模型的收敛速度,提高了元学习视觉语言理解与定位模型训练时的稳定性

本专利技术解决了现有的视觉语言理解与定位方法在面临视觉语言理解与定位数据集中训练集和测试集分布差异过大的场景时过度关注训练集,导致模型的泛化能力差,引起模型过拟合,进而降低了视觉语言理解与定位精度的问题

[0007]进一步地,所述支持集和查询集的表达式分别如下:;;其中,和分别表示元学习在第
i
轮迭代训练中的支持集和查询集,和分别表示支持集和查询集中的第
k
个输入图片,和分别表示支持集和查询集中与第
k
个输入图片对应的文本描述,
k
的取值为1至,表示元学习中每一轮迭代训练中的批次大小

[0008]上述进一步方案的有益效果是:本专利技术通过随机不相关的元学习数据划分机制划分得到元学习的支持集和查询集,并直接在视觉语言理解与定位数据集上进行元学习迭代训练,利用元学习的支持集和查询集,视觉语言理解与定位模型可以进行后续的元学习过


[0009]再进一步地,所述
S2
包括以下步骤:
S201、
利用视觉
Transformer
网络作为元学习视觉语言理解与定位训练模型的视觉分支,提取输入样本对中图片的视觉特征,以及利用基于
Bert
的网络作为元学习视觉语言理解与定位训练模型的语言分支,提取输入样本对中文本描述的语言特征;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种元学习视觉语言理解与定位方法,其特征在于,包括以下步骤:
S1、
在元学习的每一轮迭代训练中,将目标视觉语言理解与定位数据集随机划分为没有重复数据的支持集和查询集,构建训练集,且每一轮参与元学习迭代训练的支持集与查询集不相关;
S2、
根据输入的样本对,构建元学习视觉语言理解与定位训练模型,其中,所述输入的样本对为图片

文本描述样本对;
S3、
构建基于随机不相关训练机制的元学习内层循环训练,并利用支持集对基础学习器的参数进行更新;
S4、
利用更新后的基础学习器参数对训练集中的查询集计算损失,并反向优化元学习视觉语言理解与定位训练模型,以完成元学习的外层循环训练;
S5、
利用优化后的元学习视觉语言理解与定位训练模型编码测试图片

文本描述样本对,输出被描述物体在图片中的定位框
。2.
根据权利要求1所述的元学习视觉语言理解与定位方法,其特征在于,所述支持集和查询集的表达式分别如下:;;其中,和分别表示元学习在第
i
轮迭代训练中的支持集和查询集,和分别表示支持集和查询集中的第
k
个输入图片,和分别表示支持集和查询集中与第
k
个输入图片对应的文本描述,
k
的取值为1至,表示元学习中每一轮迭代训练中的批次大小
。3.
根据权利要求1所述的元学习视觉语言理解与定位方法,其特征在于,所述
S2
包括以下步骤:
S201、
利用视觉
Transformer
网络作为元学习视觉语言理解与定位训练模型的视觉分支,提取输入样本对中图片的视觉特征,以及利用基于
Bert
的网络作为元学习视觉语言理解与定位训练模型的语言分支,提取输入样本对中文本描述的语言特征;
S202、
利用视觉语言
Transformer
网络将所述图片的视觉特征和文本描述的语言特征进行融合,并将文本描述提到的视觉目标的坐标框进行回归处理,得到预测定位框;
S203、
利用元学习视觉语言理解与定位训练模型的损失函数,计算所述预测定位框与真实定位框的损失;
S204、
基于
S203
的计算结果,利用随机梯度下降法反向优化元学习视觉语言理解与定位训练模型
。4.
根据权利要求3所述的元学习视觉语言理解与定位方法,其特征在于,所述图片的视觉特征和文本描述的语言特征的表达式分别如下:;;其中,和分别表示图片的视觉特征和文本描述的语言特征,表示视觉
Transformer
网络,表示基于
Ber...

【专利技术属性】
技术研发人员:苏超彭德中胡鹏袁钟王旭孙元秦阳
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1