一种基于知识协调的VLP模型参数高效微调方法及系统技术方案

技术编号：40326694 阅读：32 留言：0更新日期：2024-02-09 14:20

本发明专利技术公开了一种基于知识协调的VLP模型参数高效微调方法，其特征在于，基于给定的图像文本对及下游任务，从完成预训练的VLP模型中选取多个网络模块，构建VLP基础模型；构建与VLP基础模型中各网络模块进行知识协调的网络适配器；将对应的网络适配器插入VLP基础模型中的各网络模块中，构成VLP扩展模型，对VLP扩展模型进行训练并优化模型参数时，不对VLP基础模型中原有网络模块的参数进行调整，只对网络适配器及其后的正则化层参数进行调整。本发明专利技术采用网络适配器与VLP基础模型相组合，得到满足不同下游任务需求的VLP扩展模型，可即插即用，适于不同VLP模型的轻量化参数高效微调。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习的，特别涉及一种基于知识协调的vlp模型参数高效微调方法及系统。

技术介绍

1、目前，大模型的预训练-微调范式已在自然语言处理(nlp)、计算机视觉(cv)和多模态等领域取得了显著成功。在这一范式中，模型首先通过大规模数据进行预训练，然后通过参数全量微调来适应各个下游任务。然而，随着模型规模的不断增大(例如，gpt-3拥有高达175b的参数)，以及下游任务种类的不断增多，尤其是在多模态场景中，传统的参数全量微调方法变得日益不切实际，这主要受到其带来的显著增加的计算和存储需求的制约。

2、为了解决上述挑战，研究人员积极探索替代方法。例如：线性探针方法为每个任务调整一个轻量级头部，以减小微调的规模；adapter和prompt learning等方法通过在模型的输入以及模块之间引入轻量化的结构，在nlp领域展示出了显著的可泛化性能。尽管这些方法在一定程度上缓解了由于模型的参数微调所带来的计算和存储成本的问题，但它们通常只考虑单一模态或单一下游任务，缺乏对单/跨模态和不同下游任务的支持。因此，面对日益复杂的视...

【技术保护点】

1.一种基于知识协调的VLP模型参数高效微调方法，其特征在于，基于给定的图像文本对及下游任务，从完成预训练的VLP模型中选取多个网络模块，构建VLP基础模型；构建与VLP基础模型中各网络模块进行知识协调的网络适配器；将对应的网络适配器插入VLP基础模型中的各网络模块中，构成VLP扩展模型，对VLP扩展模型进行训练并优化模型参数时，不对VLP基础模型中原有网络模块的参数进行调整，只对网络适配器及其后的正则化层参数进行调整。

2.根据权利要求1所述的基于知识协调的VLP模型参数高效微调方法，其特征在于，网络适配器包括依次连接的输入全连接层、激活函数层、路由策略层，及均与路由策略层...

【技术特征摘要】

1.一种基于知识协调的vlp模型参数高效微调方法，其特征在于，基于给定的图像文本对及下游任务，从完成预训练的vlp模型中选取多个网络模块，构建vlp基础模型；构建与vlp基础模型中各网络模块进行知识协调的网络适配器；将对应的网络适配器插入vlp基础模型中的各网络模块中，构成vlp扩展模型，对vlp扩展模型进行训练并优化模型参数时，不对vlp基础模型中原有网络模块的参数进行调整，只对网络适配器及其后的正则化层参数进行调整。

2.根据权利要求1所述的基于知识协调的vlp模型参数高效微调方法，其特征在于，网络适配器包括依次连接的输入全连接层、激活函数层、路由策略层，及均与路由策略层连接的多个并行输出全连接层。

3.根据权利要求1所述的基于知识协调的vlp模型参数高效微调方法，其特征在于，设网络适配器与vlp基础模型中各网络模块进行知识协调的知识协调函数为fm(zm)，fm(zm)的表达式如下：

4.根据权利要求1所述的基于知识协调的vlp模型参数高效微调方法，其特征在于，vlp基础模型包括单模态编码器、跨模态编码器和/或跨模态解码器。

5.根据权利要求4所述的基于知识协调的vlp模型参数高效微调方法，其特征在于，单模态编码器包括单模态多头注意力层及单模态前向传播网络；跨模态编码器包括跨模态多头自注意力层及跨模态前向传播网络；跨模态解码器包括解码器多头自注意力层及解码器前向传播网络。

6.根据权利要求5所述的基于知识协调的vlp模型参数高效微调方法，其特征在于，在单模态多头自注意力层及单模态前向传播网络后均插入网络适配器，将在单模态多头自注意力层及单模态前向传播...

【专利技术属性】
技术研发人员：冀中，张晏，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人