一种动量模仿学习的视觉语言预训练模型优化方法技术

技术编号：40416434 阅读：3 留言：0更新日期：2024-02-20 22:33

一种动量模仿学习的视觉语言预训练模型优化方法，涉及高效参数迁移学习。1)计算权重模拟学习的损失函数：2)动量更新模型的权重：3)计算混合近似函数：(1)f<subgt;t</subgt;(X)＝X+(XA<subgt;d</subgt;+a<subgt;d</subgt;)B<subgt;d</subgt;+b<subgt;d</subgt;，(2)f<subgt;b</subgt;(X)＝XW<subgt;0</subgt;+XA<subgt;b</subgt;B<subgt;d</subgt;，(3)f<subgt;h</subgt;(X)＝f<subgt;b</subgt;(f<subgt;t</subgt;(X))；4)重参数化近似函数。通过模仿原模型权重学习过程和优化低秩适配器的近似误差，实现对视觉语言预训练模型的高效优化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于高效参数迁移学习，涉及利用少量适配器参数对预训练模型在下游任务进行迁移学习的方法，特别是涉及一种动量模仿学习的视觉语言预训练模型优化方法。

技术介绍

1、在近年来，基于数百万的图像-文本数据的大规模预训练已经成为视觉-语言学习的默认范式。借助大量预训练知识，基于transformer的视觉-语言预训练模型可以比定制模型获得更好的多模态表征和跨模态对齐，从而在许多多模态任务中占主导地位，如视觉问答、图像标注字幕和图像-文本匹配。然而，这些模型通常需要过多的参数来容纳庞大的预训练数据，这使得它们对下游任务的适应在存储成本方面变得过于昂贵。

2、近年来在自然语言处理领域的进步提供一种可能的解决方案，即高效参数迁移学习(petl)。petl方法的主要原理是只更新或插入少量可训练的参数以适应下游任务，例如提示令牌(prompt token)或轻量级网络(适配器)，从而避免昂贵的全局参数更新开销。这种策略在各种自然语言处理任务中展示竞争性的迁移学习性能和显著的参数效率。然而，大多数现有的petl方法在推理过程中都会带来不可忽视的计算开销。

3、目前，一种可以更好地权衡预训练模型的效率和性能的可行解决方案是hu等人(e.j.hu,yelong shen,p.wallis,z.allen-zhu,y.li,s.wang,l.wang,and w.chen,“lora:low-rank adaptation of large language models,”in iclr,2022)提出的重参数化方法，即低

4、然而，在视觉-语言预训练模型上，lora会遭受大的近似误差，而且其优化也非常低效。特别是，预训练模型的目标函数，如掩码语言建模，通常与其下游任务(如视觉问答)有很大的差距。这种差距会大大增加lora的近似难度。与此同时，lora的训练目标是最小化预测和真实值之间的差异，这对近似误差的优化也是间接和低效的。

技术实现思路

1、本专利技术的目的在于提供一种动量模仿学习的视觉语言预训练模型优化方法——动量模仿学习(momentum imitation learning，简称moil)，通过模仿原模型权重学习过程和优化低秩适配器的近似误差，实现对视觉语言预训练模型的高效优化方案。

2、本专利技术直接微调预训练模型中的少量权重，并最小化适配器权重和调整权重之间的距离，本专利技术包括如下步骤：

3、步骤1，计算权重模拟学习的损失函数：

4、

5、其中表示更新原模型参数的下游任务的目标函数，表示最小化适配器参数和原模型微调后参数的距离的目标函数，即动量模仿学习的目标函数，λ表示调节目标函数的超参数；同时，目标函数可定义为：

6、

7、其中，δ′和δ分别表示低秩全局微调和部分微调的参数，θ′表示全局微调的模型参数，φ(δ)表示近似函数。

8、步骤1中，利用vilt和vlmo和vinvl作为预训练模型在下游任务中计算目标函数，利用vqa2.0和gqa执行视觉问答任务，利用nlvr2[执行视觉推理任务，利用flickr30k和ms-coco两个数据集执行图像-文本匹配任务，同时利用ms-coco执行图像标注字幕任务。

9、步骤1中，将适配器的隐层维度设为96，超参数λ设置为1，其余训练设置与prompt、lora和adapte相同。

10、步骤2，动量更新模型的权重：

11、

12、其中和分别表示第k次和第k-1次的模型权重，θ′k是第k次计算目标函数后向传播得到的模型权重，α表示动量系数；通过动量更新，预训练模型的模仿学习损失函数如下：

13、

14、以上等式中相加的三项分别是transformer模型中计算原模型q，k，v权重与低秩适配器近似函数的距离。

15、步骤3，计算混合近似函数：

16、(1)ft(x)＝x+(xad+ad)bd+bd，其中x是输入特征，ad和bd是投影参数，ad和bd是偏置量，ft(x)表示转化后的适配器权重；

17、(2)fb(x)＝xw0+xabbd，其中wo是冻住的原模型权重，fb(x)表示偏置；

18、(3)fh(x)＝fb(ft(x))表示把适配器权重和模型权重重参数化后的权重。

19、步骤4，重参数化近似函数：

20、fh(x)＝fa(fd(x))

21、＝x(w0+adbdw0+abbb)+adbdw0+bdw0

22、忽略偏置参数，近似函数可以简写为：

23、φh(s，δw)＝(i+adbd)w0+abbb

24、＝swo+δw

25、其中，i表示单位矩阵。

26、本专利技术提供一种新的视觉语言预训练模型优化方法——动量模仿学习(moil)，该方法通过模仿原模型权重学习过程和优化低秩适配器的近似误差，实现对视觉语言预训练模型的高效优化方案；实验发现，lora的近似误差可通过一个新的优化目标来优化，即lora和微调原模型之间的权重距离。在实践中，直接微调预训练模型中的少量权重，并最小化适配器权重和调整权重之间的距离。同时，本专利技术进一步提出一种动量更新策略来提高模仿学习的稳定性，采用调整权重的指数移动平均作为模仿目标。除了这种训练方案，还在moil中提出一种新的混合近似函数来进行低秩适配，进一步降低学习难度。通过这些新颖的设计，moil能够大大提高在下游任务上的优化效率。

本文档来自技高网...

【技术保护点】

1.一种动量模仿学习的视觉语言预训练模型优化方法，其特征在于包括如下步骤：

2.如权利要求1所述的一种动量模仿学习的视觉语言预训练模型优化方法，其特征在于在步骤1中，所述目标函数利用ViLT、VLMO和VinVL作为预训练模型在下游任务中计算，利用VQA2.0和GQA执行视觉问答任务，利用NLVR2执行视觉推理任务，利用Flickr30K和MS-COCO两个数据集执行图像-文本匹配任务，同时利用MS-COCO执行图像标注字幕任务。

3.如权利要求1所述的一种动量模仿学习的视觉语言预训练模型优化方法，其特征在于在步骤1中，所述目标函数定义为：

4.如权利要求1所述的一种动量模仿学习的视觉语言预训练模型优化方法，其特征在于在步骤1中，将适配器的隐层维度设为96，超参数λ设置为1，其余训练设置与Prompt、LoRA和Adapter相同。

5.如权利要求1所述的一种动量模仿学习的视觉语言预训练模型优化方法，其特征在于在步骤2中，通过动量更新，预训练模型的模仿学习损失函数如下：

【技术特征摘要】

1.一种动量模仿学习的视觉语言预训练模型优化方法，其特征在于包括如下步骤：

2.如权利要求1所述的一种动量模仿学习的视觉语言预训练模型优化方法，其特征在于在步骤1中，所述目标函数利用vilt、vlmo和vinvl作为预训练模型在下游任务中计算，利用vqa2.0和gqa执行视觉问答任务，利用nlvr2执行视觉推理任务，利用flickr30k和ms-coco两个数据集执行图像-文本匹配任务，同时利用ms-coco执行图像标注字幕任务。

3.如...

【专利技术属性】
技术研发人员：纪荣嵘，周奕毅，罗根，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人