基于陈述句提示微调的视觉问答方法技术

技术编号:34566815 阅读:46 留言:0更新日期:2022-08-17 12:56
本发明专利技术公开了一种基于陈述句提示微调的视觉问答方法,包括以下步骤:1)对于给定的视觉问答输入(I,Q),将视觉问答中的问题Q转化为陈述句形式;2)将视觉问答任务转化为答案填词任务;3)利用步骤2)中填词任务预测的正确答案中的top

【技术实现步骤摘要】
基于陈述句提示微调的视觉问答方法


[0001]本专利技术涉及自然语言处理技术,尤其涉及一种基于陈述句提示微调的视觉问答方法。

技术介绍

[0002]传统的利用大规模多模态预训练模型的视觉问答方法通常采用“预训练

微调”的范式,先在大规模无标注的图

文数据上使用掩码语言模型和图文匹配任务进行预训练,然后通过答案分类来迁移到下游视觉问答任务。随着大规模预训练模型的进步,许多研究致力于设计多样的预训练任务以及训练策略来提升预训练模型的多模态对齐和融合能力。当前大多数研究工作基于Transformer来构建模型,尽管这些模型在视觉问答任务上展现出了卓越的性能,但在迁移到下游任务时由于上下游任务形式差异性过大,导致仍然需要大量的标注数据来实现较好的效果。同时,当前的工作难以应用于零样本或少样本的视觉问答,因此在预训练模型的迁移应用上具有很大的局限性。

技术实现思路

[0003]本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于陈述句提示微调的视觉问答方法。
[0004]本专利技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于陈述句提示微调的视觉问答方法,其特征在于,包括以下步骤:1)对于给定的视觉问答输入(I,Q),将视觉问答中的问题Q转化为陈述句形式;其中I代表图像输入,Q代表文本问题输入;2)将视觉问答任务转化为答案填词任务,具体如下:2.1)将文本输入构造为:[CLS]Q Answer:D[SEP]其中,D为问题Q转化的对应的陈述句,[CLS]和[SEP]为特殊标记词汇;D中存在[MASK]词汇,表示待填入的答案;2.2)将文本输入转化为词向量,得到词向量特征{e
[CLS]
,e1,

,e
m
e
[SEP]
};2.3)提取图像I的特征,得到一系列视觉目标特征{o1,

,o
n
};2.4)将词向量特征和视觉目标特征连接起来输入到多模态预训练模型中,得到各个位置对应的输出,表示为2.5)选择[CLS]和[MASK]对应的输出h
[CLS]
和h
[MASK]
来预测答案,s
ans
=MLP([h
[CLS]
;h
[MASK]
]),其中,表示在答案集合上的分数,MLP为多层感知机,多模态预训练模型使用如下目标函数进行优化,其中,a
gt
表示正确答案;3)利用步骤2)中填词任务预测的正确答案中的top

K答案来分别与图像进行匹配,选择出与图像最相符的词汇来作为图文匹配任务的预测答案;4)结合答案填词和图文匹配任务的预测结...

【专利技术属性】
技术研发人员:魏巍刘宇航彭道万刘逸凡张睿晗
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1