预训练语言模型的微调方法及装置制造方法及图纸

技术编号:37531745 阅读:17 留言:0更新日期:2023-05-12 15:58
本申请实施例公开了一种预训练语言模型的微调方法及装置。包括:获取预先构建的增强模型,增强模型为在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块,多视图压缩表示模型包括N个层级自编码器;利用训练数据对增强模型进行微调训练,得到目标模型,目标模型包括预训练得到的增强模型和下游预测模型;在微调训练的过程中更新所有模型参数,训练目标为最小化下游预测模块的输出结果与期望值的差异;微调训练结束后,从目标模型中去除多视图压缩表示模块得到预测模型。本申请能够降低过拟合风险,提高模型鲁棒性。提高模型鲁棒性。提高模型鲁棒性。

【技术实现步骤摘要】
预训练语言模型的微调方法及装置


[0001]本申请涉及深度学习
,特别是涉及一种预训练语言模型的微调方法及装置。

技术介绍

[0002]近年来,在大型预训练语言模型上进行微调得到预测模型已经成为自然语言处理任务中最常用的方法之一,该方法在众多任务中都取得了优异的表现。然而预训练模型在低资源场景下,也就是训练数据比较少的时候,很容易过拟合,从而导致表现下降。标记大量的训练数据往往有很高的时间和金钱成本。因此,亟需一种模型训练方法能够降低过拟合的风险,提高预测模型的预测效果。

技术实现思路

[0003]有鉴于此,本申请提供了一种预训练语言模型的微调方法及装置,以降低过拟合风险,提高预测模型的预测效果。
[0004]本申请提供了如下方案:
[0005]第一方面,提供了一种预训练语言模型的微调方法,所述方法包括:
[0006]获取预先构建的增强模型,所述增强模型为在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块后得到的模型,所述多视图压缩表示模型包括N个层级自编码器,所述N为正整数;
[0007]利用训练数据对所述增强模型进行微调训练,得到目标模型,所述目标模型包括所述增强模型和下游预测模型;在所述微调训练的过程中更新所述预训练语言模型、所述多视图压缩表示模块和所述下游预测模型的参数,训练目标为最小化下游预测模块的输出结果与期望值的差异;
[0008]所述微调训练结束后,从训练得到的目标模型中去除所述多视图压缩表示模块得到预测模型。
[0009]根据本申请实施例中一可实现的方式,所述N个层级自编码器采用不同的压缩维度。
[0010]根据本申请实施例中一可实现的方式,在所述利用训练数据对所述增强模型进行微调训练之前,还包括:
[0011]利用所述训练数据对所述增强模型进行预训练,在所述预训练的过程中仅更新所述多视图压缩表示模块的参数,训练目标为最小化所述多视图压缩表示模块的输入与输出之间的差异;
[0012]利用所述训练数据对所述增强模型进行微调训练包括:利用所述训练数据对所述预训练得到的增强模型进行微调训练。
[0013]根据本申请实施例中一可实现的方式,在所述预训练和所述微调训练过程中,所述多视图压缩表示模块的上一隐层输出隐式表达至所述多视图压缩表示模块,所述多视图
压缩表示模块从所述N个层级自编码器随机地选择一个或者随机地不选择层级自编码器输出隐式表达至下一隐层。
[0014]根据本申请实施例中一可实现的方式,所述层级自编码器包括编码模块、层内编码模块和解码模块,所述层内编码模块包括M个层内自编码器,所述M为正整数;
[0015]被输入隐式表达的层级自编码器中的编码模块输出隐式表达至层内编码模块,层内编码模块从所述M个层内自编码器随机选择一个或者随机不选择层内自编码器输出隐式表达至所述解码模块。
[0016]根据本申请实施例中一可实现的方式,所述在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块包括:
[0017]在所述预训练语言模型的顶层隐层及其相邻隐层之间增加多视图压缩表示模块;和/或,
[0018]在所述预训练语言模型的底层隐层及其相邻隐层之间增加多视图压缩表示模块。
[0019]根据本申请实施例中一可实现的方式,所述N为3,3个层级自编码器的压缩维度分别为128、256和512。
[0020]根据本申请实施例中一可实现的方式,所述训练数据为文本序列对,所述期望值为文本序列对的关系类型;或者,
[0021]所述训练数据为文本序列,所述期望值为文本序列的情感类型;或者,
[0022]所述训练数据为文本序列,所述期望值为文本序列中的命名实体;或者,
[0023]所述训练数据为文本序列,所述期望值为文本序列中至少一个词语的词性。
[0024]第二方面,提供了一种预训练语言模型的微调装置,所述装置包括:
[0025]获取单元,被配置为获取预先构建的增强模型,所述增强模型为在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块后得到的模型,所述多视图压缩表示模型包括N个层级自编码器,所述N为正整数;
[0026]微调单元,被配置为利用训练数据对增强模型进行微调训练,得到目标模型,所述目标模型包括所述预训练得到的增强模型和下游预测模型;在所述微调训练的过程中更新所述预训练语言模型、所述多视图压缩表示模块和所述下游预测模型的参数,训练目标为最小化下游预测模块的输出结果与期望值的差异;所述微调训练结束后,从训练得到的目标模型中去除所述多视图压缩表示模块得到预测模型。
[0027]根据本申请实施例中一可实现的方式,所述装置还包括:
[0028]预训练单元,被配置为利用所述训练数据对所述增强模型进行预训练,在所述预训练的过程中仅更新所述多视图压缩表示模块的参数,训练目标为最小化所述多视图压缩表示模块的输入与输出之间的差异;
[0029]所述微调单元,具体被配置为利用所述训练数据对所述预训练得到的增强模型进行微调训练,得到目标模型。
[0030]根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
[0031]根据第四方面,提供了一种电子设备,其特征在于,包括:
[0032]一个或多个处理器;以及
[0033]与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程
序指令在被所述一个或多个处理器读取执行时,执行上述第一方面中任一项所述的方法的步骤。
[0034]根据本申请提供的具体实施例,本申请公开了以下技术效果:
[0035]1)本申请在预训练语言模型的至少两个层级之间增加了N个层级自编码器,使得微调过程中在处理隐式表达时一方面可以增加隐式表达的多样性,另一方面可以利用层级自编码器来降低隐式表达中的噪音,使得下游预测模块在学习时能够降低噪音的权重,减轻过拟合的现象,提高微调得到的预测模型的鲁棒性和预测准确性。
[0036]2)在本申请中对增强模型进行微调训练之前,首先对增强模型进行预训练,仅更新多视图压缩表示模块的参数,以最小化多视图压缩表示模块的输入和输出之间的差异。该预训练能够最大程度地保留预训练语言模型的已有知识,降低多视图压缩表示模块对原有预训练语言模型已有知识的影响,从而保证最终得到的预测模型的预测效果。
[0037]3)本申请在预训练语言模型的至少两个层级之间增加的N个层级自编码器采用不同的压缩维度,从而进一步提高隐式表达的多样性,减轻过拟合现象。
[0038]4)本申请在预训练和微调训练过程中,在多视图压缩表示模块中随机地选择一个或者不选择层级自编码器进行处理,从而进一步提高隐式表达的多样性,减轻过拟合现象。
[0039]5)本申请中层级自编码器的层内编码模块包括M个层内自编码器,且在预训练和微调训练过程中从中随机选择一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型的微调方法,其特征在于,所述方法包括:获取预先构建的增强模型,所述增强模型为在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块后得到的模型,所述多视图压缩表示模型包括N个层级自编码器,所述N为正整数;利用训练数据对所述增强模型进行微调训练,得到目标模型,所述目标模型包括所述增强模型和下游预测模型;在所述微调训练的过程中更新所述预训练语言模型、所述多视图压缩表示模块和所述下游预测模型的参数,训练目标为最小化下游预测模块的输出结果与期望值的差异;所述微调训练结束后,从训练得到的目标模型中去除所述多视图压缩表示模块得到预测模型。2.根据权利要求1所述的方法,其特征在于,所述N个层级自编码器采用不同的压缩维度。3.根据权利要求1所述的方法,其特征在于,在所述利用训练数据对所述增强模型进行微调训练之前,还包括:利用所述训练数据对所述增强模型进行预训练,在所述预训练的过程中仅更新所述多视图压缩表示模块的参数,训练目标为最小化所述多视图压缩表示模块的输入与输出之间的差异;利用所述训练数据对所述增强模型进行微调训练包括:利用所述训练数据对所述预训练得到的增强模型进行微调训练。4.根据权利要求3所述的方法,其特征在于,在所述预训练和所述微调训练过程中,所述多视图压缩表示模块的上一隐层输出隐式表达至所述多视图压缩表示模块,所述多视图压缩表示模块从所述N个层级自编码器随机地选择一个或者随机地不选择层级自编码器输出隐式表达至下一隐层。5.根据权利要求1、3或4所述的方法,其特征在于,所述层级自编码器包括编码模块、层内编码模块和解码模块,所述层内编码模块包括M个层内自编码器,所述M为正整数;被输入隐式表达的层级自编码器中的编码模块输出隐式表达至层内编码模块,层内编码模块从所述M个层内自编码器随机选择一个或者随机不选择层内自编码器输出隐式表达至所述解码模块。6.根据权利要求1所述的方法,其特征在于,所述在预训练语言模型的至少两个隐层之间增加了多视图压缩表示模块包括:在所述预训练语言模型的顶层隐层及其相邻隐层之间增加多视图压缩表示模块;和/或,在所述预训练语言模...

【专利技术属性】
技术研发人员:刘林林李星漩邴立东李昕司罗沙菲克爵蒂梅根维普尔塔卡
申请(专利权)人:南洋理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1