【技术实现步骤摘要】
一种面向视觉
‑
语言任务的预训练语言模型适配方法
[0001]本专利技术属于多模态处理
,涉及视觉语言任务,特别涉及一种面向视觉
‑
语言任务的预训练语言模型适配方法。
技术介绍
[0002]预训练语言模型(PLMs)在自然语言处理领域中占据主导地位,其预训练
‑
微调范式也逐渐被多模态领域所采纳。在视觉
‑
语言(VL)任务中,视觉
‑
语言预训练(VLP)模型取得了优异的性能。通常VLP模型会将PLMs会作为其语言分支,同时仍需要一个额外的模态融合编码器,这会导致PLMs还要再被重新训练以及整个VLP模型的笨重化。除此之外,VLP模型需要在大规模图像
‑
文本对数据集上学习VL通用表征,这需要昂贵的时间成本和计算开销。因此,部分研究工作提出利用视觉编码器提取的图像特征作为PLMs的视觉提示,并直接使用PLMs来适配VL任务上来解决上述问题。然而,这些方法所获取的视觉提示往往只是对视觉特征做简单的线性映射,因为视觉特征的长度往往远大于文本特征,所以这将使输入PLMs的序列过长,从而导致计算开销呈指数级增长。
技术实现思路
[0003]本专利技术的目的在于提供一种面向视觉
‑
语言任务的预训练语言模型适配方法。根据视觉
‑
语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多
【技术保护点】
【技术特征摘要】
1.一种面向视觉
‑
语言任务的预训练语言模型适配方法,用于根据视觉
‑
语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换;其特征在于包括如下步骤:步骤1,设置视觉
‑
语言任务给定的图像I大小为224
×
224
×
3,描述文本T的长度设置为16;步骤2,获取给定图像i的视觉特征F
v
∈R
197
×
768
,根据预训练语言模型的类型,基于编码器类型或基于编码器
‑
解码器类型,得到对应描述文本T当前特征F
t
∈R
16
×
768
;步骤3,使用跨模态注意力层φ生成轻量级的动态视觉提示;使用跨模态注意力层φ,将F
t
作为查询向量query,F
v
作为键向量key和值向量key,进而提取轻量级的动态视觉提示;步骤4,使用基于k臂
‑
老虎机的强化学习搜索方法,将预训练语言模型的所有层视为搜索空间,并赋予它们偏好H∈R
M
来表示每个层被选取的概率,这里M表示预训练语言模型的层数;同时为每一层配备一个独立的跨模态注意力层Φ=[φ1,
…
,φ
M
];步骤5,在每个迭代t上,随机在H中采样一个插入层K;使用对应的跨模态注意力层φ
K
生成视觉提示,在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层,更新整个预训练语言模型和φ
K
的参数;更新结束后,基于偏好H的权值大小采样n次;在这个过程中,设置一个验证数据集d
v
,求得每个采样后的奖励得分R
t
,接着基于R
t
对偏好H进行更新;在搜索阶段结束后,根据偏好H的权值大小得到在当前视觉
‑
语言任务上最佳的插入位置K;步骤6,在预训练语言模型的每一层中,将Adapter模块加入到注意力层后以及前馈神经网络层后,视觉提示插入到预训练模型的第K层,整个预训练语言模型在训练中只更新Adapter模块和归一化层的参数,在实现参数高效化训练的同时也能够从语言任务转换到视觉
‑
语言任务。2.如权利要求1所述的一种面向视觉
‑
语言任务的预训练语言模型适配方法,其特征在于:在步骤2中,所述获取给定图像I的视觉特征,是利用CLIP预训练好的ViT
‑
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。