一种用于大型预训练语言模型的参数高效轻量化迁移方法技术

技术编号:38327362 阅读:16 留言:0更新日期:2023-07-29 09:10
本发明专利技术提供一种用于大型预训练语言模型的参数高效轻量化迁移方法;所述方法包括以下步骤:步骤S101:获取预训练好的大型基模型;步骤S102:在语言模型模型的基础上构建边缘网络,所述边缘网络参数量显著少于基模型;步骤S103:将基模型的所有层的中间表征连接到所构建的边缘网络,利用语言模型中嵌入的知识在边缘网络中执行下游任务;步骤S104:在目标域数据集上训练边缘网络,以优化其参数。本发明专利技术在迁移的过程中融合来自预训练语言模型的语言表征,同时在融合的过程中抑制冗余的信息。本发明专利技术可以在可调参数量极少的条件下达到完全微调的性能,可大大提高大型预训练语言模型迁移学习的参数效率。移学习的参数效率。移学习的参数效率。

【技术实现步骤摘要】
一种用于大型预训练语言模型的参数高效轻量化迁移方法


[0001]本专利技术属于自然语言处理
,具体涉及一种用于大型预训练语言模型的参数高效轻量化迁移方法。

技术介绍

[0002]预训练语言模型是经过大规模通用语料库经过自监督训练得到的神经网络模型,其预训练语料库通常涵盖多个领域。在自监督预训练过程中,语料库中的通用领域知识已经被嵌入到了语言模型的参数中,可以通过预训练语言模型的语言表征使用该知识。为了将预训练语言模型中的知识更好地迁移到下游任务中,通常需要将预训练语言模型在下游任务的数据集上进行小规模的有监督训练。
[0003]目前已有的迁移方法通常通过在已有的预训练模型上添加特定的分类层,再微调整个预训练语言模型包括分类层的参数实现向下游任务的迁移。然而这种方法存在以下缺陷:(1)其在多任务场景下参数效率低下:需要为每个下游任务都分别进行整个模型的微调,最终得到与下游任务数量相同个数的预训练语言模型副本;(2)预训练语言模型参数量巨大,需要大量的下游任务数据和大量的算力才能训练好所有的参数;(3)完全微调的迁移方式会导致语言模型在预训练阶段学习到的知识的遗忘,即,完全微调无法很好地利用语言模型在预训练过程中从大规模通用语料库中学习到的知识。
[0004]目前的大型深度学习模型通常需要大量的有标注数据才能完成训练,而在自然语言处理领域,优质数据集通常需要大量的专家标注才能获得,这就导致大型语言模型训练成本高昂。针对这个问题,少样本学习旨在仅使用少量标注样本实现模型的迁移。预训练语言模型由于其参数量巨大,且预训练阶段的训练目标和微调阶段的训练目标存在不同,因此通常在少样本场景下直接进行完全微调通常会导致过拟合,即模型在测试集上的性能不可用,这就限制了预训练语言模型在现实场景中的应用。
[0005]综上所述,研究与开发一种用于大型预训练语言模型的参数高效轻量化迁移方法,具有很强的现实意义。

技术实现思路

[0006]鉴于上述,本专利技术的目的是提供一种用于大型预训练语言模型的参数高效的轻量化迁移方法,提升大型预训练语言模型向下游任务迁移的参数效率和计算效率,使模型更具可用性。
[0007]实现本专利技术的技术方案是:
[0008]第一方面,一种用于大型预训练语言模型的参数高效轻量化迁移方法,包括以下步骤:(1)获取预训练好的语言模型,所述语言模型指Transformer架构的大型语言模型;
[0009](2)在语言模型模型的基础上构建一个边缘网络,所述边缘网络包括降维模块、融合模块和适配器模块,所述边缘网络参数量显著少于基模型;
[0010](3)固定预训练语言模型的参数不变,将预训练语言模型的所有层的中间表征连
接到所构建的边缘网络,利用语言模型中嵌入的知识在边缘网络中执行下游任务;
[0011](4)在目标域数据集上通过监督学习微调训练边缘网络,以优化其参数,所述目标域数据集是目标域下游任务上的小型数据集;
[0012]优选地,所述语言模型包括经大规模语料预训练的BERT、BART、XLNet、RoBERTa或GPT系列模型。
[0013]优选地,所述的边缘网络包括:基于全连接神经网络的降维模块、基于自注意力机制的融合模块、轻量化适配器模块。
[0014]优选地,所述基于全连接神经网络的降维模块将预训练语言模型中每层的输出表征作为输入,利用全连接神经网络将预训练语言模型的输出表征降维处理。
[0015]优选地,所述的基于自注意力机制的融合模块以所述的降维模块的输出作为输入,采用自注意力机制对预训练语言模型所有层的输出表征进行逐token的融合。
[0016]优选地,所述自注意力机制的融合过程计算方式为:
[0017][0018][0019]z
t
=s
t
V
t
[0020]其中,t表示token下标,Q
t
表示query值,K
t
表示key值,V
t
表示value值,表示预训练语言模型的输出经过降维模块后的结果,W
Q
,W
K
,W
V
表示自注意层的权重参数,σ(
·
)表示Sigmoid函数,s
t
表示注意力权重,z
t
表示融合结果。
[0021]优选地,所述适配器模块是一个轻量化的多层神经网络,其以融合模块的融合结果作为输入,其输出结果可以映射为下游任务上的标签结果。
[0022]本专利技术与现有技术相比具有的效益至少包括:在迁移的过程中融合来自预训练语言模型的语言表征,同时考虑到大型预训练语言模型中的通用知识并不全部是有用的,在融合的过程中抑制冗余的信息。本专利技术可以在可调参数量极少的条件下达到完全微调的性能,可大大提高大型预训练语言模型迁移学习的参数效率,降低计算设备的计算开销;同时在少样本场景下,本方法相对传统完全微调方法效果更加显著,能够提高大型预训练语言模型的可用性。
附图说明
[0023]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
[0024]图1是本专利技术实施例一提供的用于大型预训练语言模型的参数高效轻量化迁移方法的流程图;
[0025]图2是本专利技术实施例二提供的用于大型预训练语言模型的参数高效轻量化迁移方法推理计算过程流程图;
具体实施方式
[0026]为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本
专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。
[0027]实施例一:
[0028]图1是本专利技术实施例一提供的用于大型预训练语言模型的参数高效轻量化迁移方法的流程图。如图1所示,实施例提供的用于大型预训练语言模型的参数高效轻量化迁移方法,包括以下步骤:
[0029]S101,获取预训练好的语言模型,所述语言模型指Transformer架构的大型语言模型;
[0030]S102,在语言模型模型的基础上构建一个边缘网络,所述边缘网络包括降维模块、融合模块和适配器模块,所述边缘网络参数量显著少于基模型;
[0031]S103,将预训练语言模型的所有层的中间表征连接到所构建的边缘网络,同时固定预训练语言模型的参数不变,利用语言模型中嵌入的知识在边缘网络中执行下游任务;
[0032]S104,在目标域数据集上通过监督学习微调训练边缘网络,以优化其参数,所述目标域数据集是目标域下游任务上的小型数据集;
[0033]实施例中,预训练语言模型是在大规模通用领域语料库上经过自监督方式预训练的神经网络模型,它通常本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于大型预训练语言模型的参数高效轻量化迁移方法,其特征在于,包括以下步骤:获取预训练好的语言模型,所述语言模型指Transformer架构的大型语言模型;在语言模型模型的基础上构建一个边缘网络,所述边缘网络包括降维模块、融合模块和适配器模块,所述边缘网络参数量显著少于基模型;将预训练语言模型的所有层的中间表征连接到所构建的边缘网络,同时固定预训练语言模型的参数不变,利用语言模型中嵌入的知识在边缘网络中执行下游任务;在目标域数据集上通过监督学习微调训练边缘网络,以优化其参数,所述目标域数据集是目标域下游任务上的小型数据集。2.根据权利要求1所述的用于大型预训练语言模型的参数高效轻量化迁移方法,其特征在于,所述语言模型包括但不限于经大规模语料预训练的BERT、BART、XLNet、RoBERTa或GPT系列模型。3.根据权利要求1所述的用于大型预训练语言模型的参数高效轻量化迁移方法,其特征在于,所述边缘网络包括:基于全连接神经网络的降维模块、基于自注意力机制的融合模块、轻量化适配器模块。4.根据权利要求3所述的用于大型预训练语言模型的参数高效轻量化迁移方法,其特征在于,所述基于全连接神经网络的降维模块将预训练语言模型中每层的输出表征作为输入,利用全连接神经网络将预训练语言模型的输出表征降维处理。5.根据权利要求4所述的用于大型预训练语言模...

【专利技术属性】
技术研发人员:赵蕴龙朱文强李洋
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1