【技术实现步骤摘要】
元学习视觉语言理解与定位方法
[0001]本专利技术属于多模态视觉语言理解与定位
,尤其涉及一种元学习视觉语言理解与定位方法
。
技术介绍
[0002]视觉语言理解与定位(
visual grounding
,
VG
)是指通过自然语言表达来准确定位图像中的目标区域或对象
。
简单来说,就是通过输入一张图片和对应的物体文本描述,输出被描述物体在图片中的定位框坐标
。
在视觉语言理解与定位任务中,被描述的物体通常由文本描述中的一个或多个信息片段来指定
。
信息可能包括物体对象属性
、
外观属性和视觉关系上下文等
。
视觉语言理解与定位任务结合了计算机视觉和自然语言理解,以增强图像的理解和分析能力
。
此外,它还支持诸如图像描述生成
、
图像文本检索和视觉语言问答等应用
。
总的来说,视觉语言理解与定位技术在推动计算机视觉和自然语言理解结合的众多领域的发展中起着至关重要的作用,具有重要的研究意义
。
[0003]近年来,诸多深度视觉语言理解与定位方法已经被探索出来,它们借助于神经网络提取出图片的视觉特征及对应图片中物体的文本描述的语言特征,再经过特征融合生成最后的定位框
。
这些方法主要分为三类:两阶段方法
、
一阶段方法和基于
Transformer
的方法两阶段方法模型在初始阶段生成 ...
【技术保护点】
【技术特征摘要】
1.
一种元学习视觉语言理解与定位方法,其特征在于,包括以下步骤:
S1、
在元学习的每一轮迭代训练中,将目标视觉语言理解与定位数据集随机划分为没有重复数据的支持集和查询集,构建训练集,且每一轮参与元学习迭代训练的支持集与查询集不相关;
S2、
根据输入的样本对,构建元学习视觉语言理解与定位训练模型,其中,所述输入的样本对为图片
‑
文本描述样本对;
S3、
构建基于随机不相关训练机制的元学习内层循环训练,并利用支持集对基础学习器的参数进行更新;
S4、
利用更新后的基础学习器参数对训练集中的查询集计算损失,并反向优化元学习视觉语言理解与定位训练模型,以完成元学习的外层循环训练;
S5、
利用优化后的元学习视觉语言理解与定位训练模型编码测试图片
‑
文本描述样本对,输出被描述物体在图片中的定位框
。2.
根据权利要求1所述的元学习视觉语言理解与定位方法,其特征在于,所述支持集和查询集的表达式分别如下:;;其中,和分别表示元学习在第
i
轮迭代训练中的支持集和查询集,和分别表示支持集和查询集中的第
k
个输入图片,和分别表示支持集和查询集中与第
k
个输入图片对应的文本描述,
k
的取值为1至,表示元学习中每一轮迭代训练中的批次大小
。3.
根据权利要求1所述的元学习视觉语言理解与定位方法,其特征在于,所述
S2
包括以下步骤:
S201、
利用视觉
Transformer
网络作为元学习视觉语言理解与定位训练模型的视觉分支,提取输入样本对中图片的视觉特征,以及利用基于
Bert
的网络作为元学习视觉语言理解与定位训练模型的语言分支,提取输入样本对中文本描述的语言特征;
S202、
利用视觉语言
Transformer
网络将所述图片的视觉特征和文本描述的语言特征进行融合,并将文本描述提到的视觉目标的坐标框进行回归处理,得到预测定位框;
S203、
利用元学习视觉语言理解与定位训练模型的损失函数,计算所述预测定位框与真实定位框的损失;
S204、
基于
S203
的计算结果,利用随机梯度下降法反向优化元学习视觉语言理解与定位训练模型
。4.
根据权利要求3所述的元学习视觉语言理解与定位方法,其特征在于,所述图片的视觉特征和文本描述的语言特征的表达式分别如下:;;其中,和分别表示图片的视觉特征和文本描述的语言特征,表示视觉
Transformer
网络,表示基于
Ber...
【专利技术属性】
技术研发人员:苏超,彭德中,胡鹏,袁钟,王旭,孙元,秦阳,
申请(专利权)人:四川大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。