当前位置: 首页 > 专利查询>厦门大学专利>正文

一种面向视觉-语言任务的预训练语言模型适配方法组成比例

技术编号:39427815 阅读:11 留言:0更新日期:2023-11-19 16:13
一种面向视觉

【技术实现步骤摘要】
一种面向视觉

语言任务的预训练语言模型适配方法


[0001]本专利技术属于多模态处理
,涉及视觉语言任务,特别涉及一种面向视觉

语言任务的预训练语言模型适配方法。

技术介绍

[0002]预训练语言模型(PLMs)在自然语言处理领域中占据主导地位,其预训练

微调范式也逐渐被多模态领域所采纳。在视觉

语言(VL)任务中,视觉

语言预训练(VLP)模型取得了优异的性能。通常VLP模型会将PLMs会作为其语言分支,同时仍需要一个额外的模态融合编码器,这会导致PLMs还要再被重新训练以及整个VLP模型的笨重化。除此之外,VLP模型需要在大规模图像

文本对数据集上学习VL通用表征,这需要昂贵的时间成本和计算开销。因此,部分研究工作提出利用视觉编码器提取的图像特征作为PLMs的视觉提示,并直接使用PLMs来适配VL任务上来解决上述问题。然而,这些方法所获取的视觉提示往往只是对视觉特征做简单的线性映射,因为视觉特征的长度往往远大于文本特征,所以这将使输入PLMs的序列过长,从而导致计算开销呈指数级增长。

技术实现思路

[0003]本专利技术的目的在于提供一种面向视觉

语言任务的预训练语言模型适配方法。根据视觉

语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换。
[0004]本专利技术包括如下步骤:
[0005]步骤1,设置视觉

语言任务给定的图像I大小为224
×
224
×
3,描述文本T的长度设置为16;
[0006]步骤2,获取给定图像I的视觉特征F
v
∈R
197
×
768
,根据预训练语言模型的类型(基于编码器类型或基于编码器

解码器类型),得到对应描述文本T当前的全局表征F
t
∈R
16
×
768

[0007]步骤3,使用跨模态注意力层φ,将F
t
作为查询向量(query),F
v
作为键向量(key)和值向量(key),进而提取轻量级的动态视觉提示;
[0008]步骤4,使用基于k臂

老虎机的强化学习搜索方法,将预训练语言模型的所有层视为搜索空间,并赋予它们偏好H∈R
M
来表示每个层被选取的概率,这里M表示预训练语言模型的层数;同时为每一层配备一个独立的跨模态注意力层Φ=[φ1,


M
];
[0009]步骤5,在每个迭代t上,随机在H中采样一个插入层K;使用对应的跨模态注意力层φ
K
生成视觉提示,在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层,更新整个预训练语言模型和φ
K
的参数;更新结束后,基于偏好H的权值大小采样n次;在这个过程中,设置一个验证数据集d
v
,求得每个采样后的奖励得分R
t
,接着基于R
t
对偏好H进行更新;在搜索阶段结束后,根据偏好H的权值大小得到在当前视觉

语言任务上最佳的插入位置K;
[0010]步骤6,在预训练语言模型的每一层中,将Adapter模块加入到注意力层后以及前馈神经网络层后,视觉提示插入到预训练模型的第K层,整个预训练语言模型在训练中只更新Adapter模块和归一化层的参数,在实现参数高效化训练的同时也能够从语言任务转换到视觉

语言任务。
[0011]上述步骤2中,利用CLIP预训练好的ViT

B/16作为视觉编码器,得到图像的视觉特征:F
v
∈R
197
×
768
;基于编码器类型的预训练语言模型如BERT的文本表征为:
[0012]F
t
=Θ
K
‑1(Θ
K
‑2,

,Θ1(E(T))
[0013]其中将预训练语言模型的各层定义为Θ=[Θ1,


M
],E表示预训练语言模型的Embedding层;
[0014]基于编码器

解码器的预训练语言模型如T5的文本表征为:
[0015]F
t
=Ψ(E(T))
[0016]这里Ψ为预训练语言模型的编码器;
[0017]上述步骤3中,跨模态注意力层生成轻量级的动态视觉提示F
DVP
的计算公式为:
[0018]F
DVP
=Concat(head1,..,head
h
)W
O
[0019][0020]其中d为特征的维度,即768;n是注意力头的个数;W
O
∈R
d
×
d
,E
Qi
,E
Ki
,
[0021]上述步骤5中,在每个迭代t上,偏好H中第K层的权值π
t
(K)计算公式为:
[0022][0023]采样n次后,基于R
t
对偏好H进行更新的公式为:
[0024]H
t+1
(K)=H
t
(K)+α(R
t

R
b

t
(K)(1

π
t
(K))
[0025]α为偏好更新的学习率,设置为0.005;R
b
为n次采样的奖励均值。
[0026]上述步骤6中,Adapter模块由一个下采样层一个上采样层和一个激活函数σ组成,定义Adapter模块的输入为那么Adapter的输出O的计算公式为:
[0027][0028]本专利技术利用视觉提示适配预训练语言模型到视觉

语言任务;由于视觉提示的长度仍然与文本长度一致,预训练语言模型的输入序列是两倍的文本长度,导致计算开销相比原本扩大四倍;同时搜索算法的迭代过程需要控制在一定的时间里,既保证不增大过多时间成本,也能够保证搜索结果的有效性;因此,本专利技术的突出改进点体现在:
[0029](1)本专利技术采用更紧凑的轻量级动态视觉提示,使用文本的全局表征作为跨模态注意力层的查询向量,其长度仅为1,大幅度减少预训练语言模型的输入序列长度,进而减少计算开销;
[0030](2)在强化学习搜索插入层的算法中,基于搜索空间不大,将搜索的迭代过程控制在一个较短的时间范围上。
...

【技术保护点】

【技术特征摘要】
1.一种面向视觉

语言任务的预训练语言模型适配方法,用于根据视觉

语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换;其特征在于包括如下步骤:步骤1,设置视觉

语言任务给定的图像I大小为224
×
224
×
3,描述文本T的长度设置为16;步骤2,获取给定图像i的视觉特征F
v
∈R
197
×
768
,根据预训练语言模型的类型,基于编码器类型或基于编码器

解码器类型,得到对应描述文本T当前特征F
t
∈R
16
×
768
;步骤3,使用跨模态注意力层φ生成轻量级的动态视觉提示;使用跨模态注意力层φ,将F
t
作为查询向量query,F
v
作为键向量key和值向量key,进而提取轻量级的动态视觉提示;步骤4,使用基于k臂

老虎机的强化学习搜索方法,将预训练语言模型的所有层视为搜索空间,并赋予它们偏好H∈R
M
来表示每个层被选取的概率,这里M表示预训练语言模型的层数;同时为每一层配备一个独立的跨模态注意力层Φ=[φ1,


M
];步骤5,在每个迭代t上,随机在H中采样一个插入层K;使用对应的跨模态注意力层φ
K
生成视觉提示,在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层,更新整个预训练语言模型和φ
K
的参数;更新结束后,基于偏好H的权值大小采样n次;在这个过程中,设置一个验证数据集d
v
,求得每个采样后的奖励得分R
t
,接着基于R
t
对偏好H进行更新;在搜索阶段结束后,根据偏好H的权值大小得到在当前视觉

语言任务上最佳的插入位置K;步骤6,在预训练语言模型的每一层中,将Adapter模块加入到注意力层后以及前馈神经网络层后,视觉提示插入到预训练模型的第K层,整个预训练语言模型在训练中只更新Adapter模块和归一化层的参数,在实现参数高效化训练的同时也能够从语言任务转换到视觉

语言任务。2.如权利要求1所述的一种面向视觉

语言任务的预训练语言模型适配方法,其特征在于:在步骤2中,所述获取给定图像I的视觉特征,是利用CLIP预训练好的ViT

【专利技术属性】
技术研发人员:纪荣嵘周奕毅黄书滨
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1