一种用于大型预训练语言模型的参数高效轻量化迁移方法技术

技术编号：38327362 阅读：16 留言：0更新日期：2023-07-29 09:10

本发明专利技术提供一种用于大型预训练语言模型的参数高效轻量化迁移方法；所述方法包括以下步骤：步骤S101：获取预训练好的大型基模型；步骤S102：在语言模型模型的基础上构建边缘网络，所述边缘网络参数量显著少于基模型；步骤S103：将基模型的所有层的中间表征连接到所构建的边缘网络，利用语言模型中嵌入的知识在边缘网络中执行下游任务；步骤S104：在目标域数据集上训练边缘网络，以优化其参数。本发明专利技术在迁移的过程中融合来自预训练语言模型的语言表征，同时在融合的过程中抑制冗余的信息。本发明专利技术可以在可调参数量极少的条件下达到完全微调的性能，可大大提高大型预训练语言模型迁移学习的参数效率。移学习的参数效率。移学习的参数效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于大型预训练语言模型的参数高效轻量化迁移方法

[0001]本专利技术属于自然语言处理
，具体涉及一种用于大型预训练语言模型的参数高效轻量化迁移方法。

技术介绍

[0002]预训练语言模型是经过大规模通用语料库经过自监督训练得到的神经网络模型，其预训练语料库通常涵盖多个领域。在自监督预训练过程中，语料库中的通用领域知识已经被嵌入到了语言模型的参数中，可以通过预训练语言模型的语言表征使用该知识。为了将预训练语言模型中的知识更好地迁移到下游任务中，通常需要将预训练语言模型在下游任务的数据集上进行小规模的有监督训练。
[0003]目前已有的迁移方法通常通过在已有的预训练模型上添加特定的分类层，再微调整个预训练语言模型包括分类层的参数实现向下游任务的迁移。然而这种方法存在以下缺陷：(1)其在多任务场景下参数效率低下：需要为每个下游任务都分别进行整个模型的微调，最终得到与下游任务数量相同个数的预训练语言模型副本；(2)预训练语言模型参数量巨大，需要大量的下游任务数据和大量的算力才能训练好所有的参数；(3)完全微调的迁移方式会导致语言模型在预训练阶段学习到的知识的遗忘，即，完全微调无法很好地利用语言模型在预训练过程中从大规模通用语料库中学习到的知识。
[0004]目前的大型深度学习模型通常需要大量的有标注数据才能完成训练，而在自然语言处理领域，优质数据集通常需要大量的专家标注才能获得，这就导致大型语言模型训练成本高昂。针对这个问题，少样本学习旨在仅使用少量标注样本实现模型的迁移。预训练语言模型由于其参数...

【技术保护点】

【技术特征摘要】
1.一种用于大型预训练语言模型的参数高效轻量化迁移方法，其特征在于，包括以下步骤：获取预训练好的语言模型，所述语言模型指Transformer架构的大型语言模型；在语言模型模型的基础上构建一个边缘网络，所述边缘网络包括降维模块、融合模块和适配器模块，所述边缘网络参数量显著少于基模型；将预训练语言模型的所有层的中间表征连接到所构建的边缘网络，同时固定预训练语言模型的参数不变，利用语言模型中嵌入的知识在边缘网络中执行下游任务；在目标域数据集上通过监督学习微调训练边缘网络，以优化其参数，所述目标域数据集是目标域下游任务上的小型数据集。2.根据权利要求1所述的用于大型预训练语言模型的参数高效轻量化迁移方法，其特征在于，所述语言模型包括但不限于经大规模语料预训练的BERT、BART、XLNet、RoBERTa或GPT系列模型。3.根据权利要求1所述的用于大型预训练语言模型的参数高效轻量化迁移方法，其特征在于，所述边缘网络包括：基于全连接神经网络的降维模块、基于自注意力机制的融合模块、轻量化适配器模块。4.根据权利要求3所述的用于大型预训练语言模型的参数高效轻量化迁移方法，其特征在于，所述基于全连接神经网络的降维模块将预训练语言模型中每层的输出表征作为输入，利用全连接神经网络将预训练语言模型的输出表征降维处理。5.根据权利要求4所述的用于大型预训练语言模...

【专利技术属性】
技术研发人员：赵蕴龙，朱文强，李洋，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人