预训练语言模型的微调方法及装置制造方法及图纸

技术编号：37531745 阅读：17 留言：0更新日期：2023-05-12 15:58

本申请实施例公开了一种预训练语言模型的微调方法及装置。包括：获取预先构建的增强模型，增强模型为在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块，多视图压缩表示模型包括N个层级自编码器；利用训练数据对增强模型进行微调训练，得到目标模型，目标模型包括预训练得到的增强模型和下游预测模型；在微调训练的过程中更新所有模型参数，训练目标为最小化下游预测模块的输出结果与期望值的差异；微调训练结束后，从目标模型中去除多视图压缩表示模块得到预测模型。本申请能够降低过拟合风险，提高模型鲁棒性。提高模型鲁棒性。提高模型鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
预训练语言模型的微调方法及装置

[0001]本申请涉及深度学习
，特别是涉及一种预训练语言模型的微调方法及装置。

技术介绍

[0002]近年来，在大型预训练语言模型上进行微调得到预测模型已经成为自然语言处理任务中最常用的方法之一，该方法在众多任务中都取得了优异的表现。然而预训练模型在低资源场景下，也就是训练数据比较少的时候，很容易过拟合，从而导致表现下降。标记大量的训练数据往往有很高的时间和金钱成本。因此，亟需一种模型训练方法能够降低过拟合的风险，提高预测模型的预测效果。

技术实现思路

[0003]有鉴于此，本申请提供了一种预训练语言模型的微调方法及装置，以降低过拟合风险，提高预测模型的预测效果。
[0004]本申请提供了如下方案：
[0005]第一方面，提供了一种预训练语言模型的微调方法，所述方法包括：
[0006]获取预先构建的增强模型，所述增强模型为在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块后得到的模型，所述多视图压缩表示模型包括N个层级自编码器，所述N为正整数；
[0007]利用训练数据对所述增强模型进行微调训练，得到目标模型，所述目标模型包括所述增强模型和下游预测模型；在所述微调训练的过程中更新所述预训练语言模型、所述多视图压缩表示模块和所述下游预测模型的参数，训练目标为最小化下游预测模块的输出结果与期望值的差异；
[0008]所述微调训练结束后，从训练得到的目标模型中去除所述多视图压缩表示模块得到预测模型。
[0009]...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型的微调方法，其特征在于，所述方法包括：获取预先构建的增强模型，所述增强模型为在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块后得到的模型，所述多视图压缩表示模型包括N个层级自编码器，所述N为正整数；利用训练数据对所述增强模型进行微调训练，得到目标模型，所述目标模型包括所述增强模型和下游预测模型；在所述微调训练的过程中更新所述预训练语言模型、所述多视图压缩表示模块和所述下游预测模型的参数，训练目标为最小化下游预测模块的输出结果与期望值的差异；所述微调训练结束后，从训练得到的目标模型中去除所述多视图压缩表示模块得到预测模型。2.根据权利要求1所述的方法，其特征在于，所述N个层级自编码器采用不同的压缩维度。3.根据权利要求1所述的方法，其特征在于，在所述利用训练数据对所述增强模型进行微调训练之前，还包括：利用所述训练数据对所述增强模型进行预训练，在所述预训练的过程中仅更新所述多视图压缩表示模块的参数，训练目标为最小化所述多视图压缩表示模块的输入与输出之间的差异；利用所述训练数据对所述增强模型进行微调训练包括：利用所述训练数据对所述预训练得到的增强模型进行微调训练。4.根据权利要求3所述的方法，其特征在于，在所述预训练和所述微调训练过程中，所述多视图压缩表示模块的上一隐层输出隐式表达至所述多视图压缩表示模块，所述多视图压缩表示模块从所述N个层级自编码器随机地选择一个或者随机地不选择层级自编码器输出隐式表达至下一隐层。5.根据权利要求1、3或4所述的方法，其特征在于，所述层级自编码器包括编码模块、层内编码模块和解码模块，所述层内编码模块包括M个层内自编码器，所述M为正整数；被输入隐式表达的层级自编码器中的编码模块输出隐式表达至层内编码模块，层内编码模块从所述M个层内自编码器随机选择一个或者随机不选择层内自编码器输出隐式表达至所述解码模块。6.根据权利要求1所述的方法，其特征在于，所述在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块包括：在所述预训练语言模型的顶层隐层及其相邻隐层之间增加多视图压缩表示模块；和/或，在所述预训练语言模...

【专利技术属性】
技术研发人员：刘林林，李星漩，邴立东，李昕，司罗，沙菲克爵蒂，梅根维普尔塔卡，
申请(专利权)人：南洋理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人