一种面向视觉-语言任务的预训练语言模型适配方法组成比例

技术编号：39427815 阅读：11 留言：0更新日期：2023-11-19 16:13

一种面向视觉

全部详细技术资料下载

【技术实现步骤摘要】
一种面向视觉
‑
语言任务的预训练语言模型适配方法

[0001]本专利技术属于多模态处理
，涉及视觉语言任务，特别涉及一种面向视觉
‑
语言任务的预训练语言模型适配方法。

技术介绍

[0002]预训练语言模型(PLMs)在自然语言处理领域中占据主导地位，其预训练
‑
微调范式也逐渐被多模态领域所采纳。在视觉
‑
语言(VL)任务中，视觉
‑
语言预训练(VLP)模型取得了优异的性能。通常VLP模型会将PLMs会作为其语言分支，同时仍需要一个额外的模态融合编码器，这会导致PLMs还要再被重新训练以及整个VLP模型的笨重化。除此之外，VLP模型需要在大规模图像
‑
文本对数据集上学习VL通用表征，这需要昂贵的时间成本和计算开销。因此，部分研究工作提出利用视觉编码器提取的图像特征作为PLMs的视觉提示，并直接使用PLMs来适配VL任务上来解决上述问题。然而，这些方法所获取的视觉提示往往只是对视觉特征做简单的线性映射，因为视觉特征的长度往往远大于文本特征，所以这将使输入PLMs的序列过长，从而导致计算开销呈指数级增长。

技术实现思路

[0003]本专利技术的目的在于提供一种面向视觉
‑
语言任务的预训练语言模型适配方法。根据视觉
‑
语言任务中给定的图像和描述文本，动态地提取出高效的、紧凑的视觉提示，并适配到给定的预训练语言模型，结合参数高效化的迁移学习方法，实现单模态任务和多

【技术保护点】

【技术特征摘要】
1.一种面向视觉
‑
语言任务的预训练语言模型适配方法，用于根据视觉
‑
语言任务中给定的图像和描述文本，动态地提取出高效的、紧凑的视觉提示，并适配到给定的预训练语言模型，结合参数高效化的迁移学习方法，实现单模态任务和多模态任务的转换；其特征在于包括如下步骤：步骤1，设置视觉
‑
语言任务给定的图像I大小为224
×
224
×
3，描述文本T的长度设置为16；步骤2，获取给定图像i的视觉特征F
v
∈R
197
×
768
，根据预训练语言模型的类型，基于编码器类型或基于编码器
‑
解码器类型，得到对应描述文本T当前特征F
t
∈R
16
×
768
；步骤3，使用跨模态注意力层φ生成轻量级的动态视觉提示；使用跨模态注意力层φ，将F
t
作为查询向量query，F
v
作为键向量key和值向量key，进而提取轻量级的动态视觉提示；步骤4，使用基于k臂
‑
老虎机的强化学习搜索方法，将预训练语言模型的所有层视为搜索空间，并赋予它们偏好H∈R
M
来表示每个层被选取的概率，这里M表示预训练语言模型的层数；同时为每一层配备一个独立的跨模态注意力层Φ＝[φ1,
…
,φ
M
]；步骤5，在每个迭代t上，随机在H中采样一个插入层K；使用对应的跨模态注意力层φ
K
生成视觉提示，在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层，更新整个预训练语言模型和φ
K
的参数；更新结束后，基于偏好H的权值大小采样n次；在这个过程中，设置一个验证数据集d
v
，求得每个采样后的奖励得分R
t
，接着基于R
t
对偏好H进行更新；在搜索阶段结束后，根据偏好H的权值大小得到在当前视觉
‑
语言任务上最佳的插入位置K；步骤6，在预训练语言模型的每一层中，将Adapter模块加入到注意力层后以及前馈神经网络层后，视觉提示插入到预训练模型的第K层，整个预训练语言模型在训练中只更新Adapter模块和归一化层的参数，在实现参数高效化训练的同时也能够从语言任务转换到视觉
‑
语言任务。2.如权利要求1所述的一种面向视觉
‑
语言任务的预训练语言模型适配方法，其特征在于：在步骤2中，所述获取给定图像I的视觉特征，是利用CLIP预训练好的ViT
‑

【专利技术属性】
技术研发人员：纪荣嵘，周奕毅，黄书滨，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人