一种自然语言处理模型的训练方法和装置制造方法及图纸

技术编号:34534027 阅读:35 留言:0更新日期:2022-08-13 21:27
本申请提供了一种自然语言处理模型的训练方法和装置,该方法在采用了自注意力机制的预训练语言模型的基础上,通过融合多个自然语言处理任务的提示矩阵来更新其中的单个自然语言处理任务的提示矩阵,然后将自然语言处理任务的训练样本数据和更新后的提示矩阵输入该模型,来训练更新后的提示矩阵。该方法通过将多个自然语言处理任务联合学习,进行了隐式的数据增强,提升了模型的表示能力,由于自然语言处理任务之间具有递进关系或者相似关系,能够通过多个任务的提示矩阵的联合学习来提升提示调整方法的效果。升提示调整方法的效果。升提示调整方法的效果。

【技术实现步骤摘要】
一种自然语言处理模型的训练方法和装置


[0001]本申请涉及自然语言处理
,尤其涉及一种自然语言处理模型的训练方法和装置。

技术介绍

[0002]在自然语言处理(Natural Language Processing,NLP)领域,“提示”(Prompt)是将人为的规则给到预训练语言模型,使模型可以更好地理解人的指令的一项技术,可以简单理解为给任务的输入加入补充文本,以便更好地利用预训练语言模型。
[0003]与一般的微调(Fine

Tuning)相比,提示调整(Prompt Tuning)将Prompt加入到微调过程中,并且可以做到只对Prompt部分的参数进行训练,同时保证整个预训练模型的参数固定不变,这种灵活性是一般的Fine

tuning无法做到的。
[0004]因此,如何进一步提升使用提示调整方法训练预训练语言模型的效果值得研究。

技术实现思路

[0005]本申请提供了一种自然语言处理模型的训练方法和装置,能够进一步提升使用提示调整方法训练预训练语言模型的效果。
[0006]第一方面,提供了一种自然语言处理模型的训练方法,包括:
[0007]获取预训练语言模型,预训练语言模型的第一层为采用自注意力机制的层结构;
[0008]确定第一任务在第一层对应的第一提示矩阵、第二任务在第一层对应的第二提示矩阵,第一提示矩阵和第二提示矩阵为用作连续提示的可学习向量矩阵,第一任务和第二任务属于自然语言处理任务;
[0009]根据第二提示矩阵确定第一层的第一系数矩阵;
[0010]根据第一系数矩阵、第一提示矩阵和第二提示矩阵,更新第一提示矩阵;
[0011]根据第一任务的训练样本数据、更新后的第一提示矩阵,训练更新后的第一提示矩阵,其中,
[0012]第一任务在第一层对应的自注意力机制运算的输入包括第一拼接向量矩阵,第一拼接向量矩阵由第一层的第一向量矩阵和更新后的第一提示矩阵拼接得到,第一向量矩阵为与第一任务对应的键向量矩阵或值向量矩阵。
[0013]本申请实施例在训练模型前,将多个NLP任务对应的提示矩阵融合来更新单个任务的提示矩阵,将多个NLP任务联合学习,进行了隐式的数据增强,提升了模型的表示能力,由于NLP任务之间具有递进关系或者相似关系,能够通过多个任务的提示矩阵联合学习来提升提示调整方法的效果。进一步地,由于本申请实施例中的提示调整方法基于了Transformers模型,Transformers基础参数是共享的,不同任务间的提示矩阵相当于在同一个基础参数上进行对模型的扰动,因此这些扰动有一定共性,不同任务的提示矩阵之间可以进行显式的信息的相互传递,一个NLP任务可以参考其他NLP任务训练的提示矩阵对本身的值进行改动,这样加速了提示矩阵的收敛速度,从而加快了训练速度。
[0014]在一个示例中,该方法还包括:
[0015]根据第一提示矩阵确定第一层的第二系数矩阵;
[0016]根据第二系数矩阵、第一提示矩阵和第二提示矩阵,更新第二提示矩阵;
[0017]根据第二任务的训练样本数据、更新后的第二提示矩阵,训练更新后的第二提示矩阵,其中,
[0018]第二任务在第一层对应的自注意力机制运算的输入包括第二拼接向量矩阵,第二拼接向量矩阵由第一层的第二向量矩阵和更新后的第二提示矩阵拼接得到,第二向量矩阵为与第二任务对应的键向量矩阵或值向量矩阵。
[0019]在一个示例中,根据第二提示矩阵确定第一层的第一系数矩阵,包括:
[0020]初始化与第二提示矩阵对应的第一权重矩阵,第一权重矩阵是基于第一任务的训练样本数据和第二任务的训练样本数据的可学习的矩阵;
[0021]确定第一激活函数以及与第二提示矩阵对应的第一偏置矩阵;
[0022]将第一权重矩阵、第二提示矩阵、第一偏置矩阵作第一激活函数的输入,将第一激活函数的输出确定为第一层的第一系数矩阵。
[0023]在一个示例中,预训练语言模型的第二层为采用自注意力机制的层结构,方法还包括:
[0024]确定第二任务在第二层对应的第三提示矩阵,第三提示矩阵为用作连续提示的可学习向量矩阵。
[0025]在一个示例中,根据第一系数矩阵、第一提示矩阵和第二提示矩阵,更新第一提示矩阵,包括:
[0026]根据第一提示矩阵和第三提示矩阵确定第二层的第三系数矩阵;
[0027]根据第一系数矩阵、第三系数矩阵、第一提示矩阵、第二提示矩阵和第三提示矩阵,更新第一提示矩阵;
[0028]其中,根据第二提示矩阵确定第一层的第一系数矩阵,包括:
[0029]根据第一提示矩阵和第二提示矩阵确定第一系数矩阵。
[0030]在一个示例中,根据第一提示矩阵和第二提示矩阵确定第一系数矩阵,包括:
[0031]确定第二提示矩阵与第一提示矩阵之间的第一欧式距离;
[0032]基于陆地移动距离算法根据第一欧式距离确定第一转移量,第一转移量用于表征第二提示矩阵传递到第一提示矩阵的信息的占比;
[0033]根据第一转移量确定第一系数矩阵。
[0034]在一个示例中,根据第一提示矩阵和第三提示矩阵确定第二层的第三系数矩阵,包括:
[0035]确定第三提示矩阵与第一提示矩阵之间的第二欧式距离;
[0036]基于陆地移动距离算法根据第二欧式距离确定第二转移量,第二转移量用于表征第三提示矩阵传递到第一提示矩阵的信息的占比;
[0037]根据第二转移量确定第三系数矩阵。
[0038]在一个示例中,根据第一系数矩阵、第三系数矩阵、第一提示矩阵、第二提示矩阵和第三提示矩阵,更新第一提示矩阵,包括:
[0039]根据第一层的第一任务确定第一比重;
[0040]根据预训练语言模型的层数和除第一任务以外的剩余任务数量确定第二比重;
[0041]根据第一比重、第二比重、第一系数矩阵、第三系数矩阵、第一提示矩阵、第二提示矩阵和第三提示矩阵,更新第一提示矩阵。
[0042]第二方面,提供了一种自然语言处理模型的训练装置,包括:
[0043]模型获取模块,用于获取预训练语言模型,预训练语言模型的第一层为采用自注意力机制的层结构;
[0044]提示矩阵确定模块,用于确定第一任务在第一层对应的第一提示矩阵、第二任务在第一层对应的第二提示矩阵,第一提示矩阵和第二提示矩阵为用作连续提示的可学习向量矩阵,第一任务和第二任务属于自然语言处理任务;
[0045]系数矩阵确定模块,用于根据第二提示矩阵确定第一层的第一系数矩阵;
[0046]提示矩阵更新模块,用于根据第一系数矩阵、第一提示矩阵和第二提示矩阵,更新第一提示矩阵,第一系数矩阵与第二提示矩阵相关;
[0047]模型训练模块,用于根据第一任务的训练样本数据、更新后的第一提示矩阵,训练更新后的第一提示矩阵,其中,
[0048]第一任务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言处理模型的训练方法,其特征在于,包括:获取预训练语言模型,所述预训练语言模型的第一层为采用自注意力机制的层结构;确定第一任务在第一层对应的第一提示矩阵、第二任务在第一层对应的第二提示矩阵,所述第一提示矩阵和所述第二提示矩阵为用作连续提示的可学习向量矩阵,所述第一任务和所述第二任务属于自然语言处理任务;根据所述第二提示矩阵确定第一层的第一系数矩阵;根据所述第一系数矩阵、所述第一提示矩阵和所述第二提示矩阵,更新所述第一提示矩阵;根据所述第一任务的训练样本数据、更新后的所述第一提示矩阵,训练所述更新后的所述第一提示矩阵,其中,所述第一任务在第一层对应的自注意力机制运算的输入包括第一拼接向量矩阵,所述第一拼接向量矩阵由第一层的第一向量矩阵和所述更新后的所述第一提示矩阵拼接得到,所述第一向量矩阵为与所述第一任务对应的键向量矩阵或值向量矩阵。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述第一提示矩阵确定第一层的第二系数矩阵;根据所述第二系数矩阵、所述第一提示矩阵和所述第二提示矩阵,更新所述第二提示矩阵;根据所述第二任务的训练样本数据、更新后的所述第二提示矩阵,训练所述更新后的所述第二提示矩阵,其中,所述第二任务在第一层对应的自注意力机制运算的输入包括第二拼接向量矩阵,所述第二拼接向量矩阵由第一层的第二向量矩阵和所述更新后的所述第二提示矩阵拼接得到,所述第二向量矩阵为与所述第二任务对应的键向量矩阵或值向量矩阵。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第二提示矩阵确定第一层的第一系数矩阵,包括:初始化与所述第二提示矩阵对应的第一权重矩阵,所述第一权重矩阵是基于所述第一任务的训练样本数据和所述第二任务的训练样本数据的可学习的矩阵;确定第一激活函数以及与所述第二提示矩阵对应的第一偏置矩阵;将所述第一权重矩阵、所述第二提示矩阵、所述第一偏置矩阵作为所述第一激活函数的输入,将所述第一激活函数的输出确定为第一层的所述第一系数矩阵。4.根据权利要求1或2所述的方法,其特征在于,所述预训练语言模型的第二层为采用自注意力机制的层结构,所述方法还包括:确定第二任务在第二层对应的第三提示矩阵,所述第三提示矩阵为用作连续提示的可学习向量矩阵。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一系数矩阵、所述第一提示矩阵和所述第二提示矩阵,更新所述第一提示矩阵,包括:根据所述第一提示矩阵和所述第三提示矩阵确定第二层的第三系数矩阵;根据所述第一系数矩阵、所述第三系数矩阵、所述第一提示矩阵、所述第二提示矩阵和所述第三提示矩阵,更新所述第一提示矩阵;其中,所述根据所述第二提示矩阵确定第一层的第一系数矩阵,包括:
根据所述第一提示矩阵和所述第二提示矩阵确定所述第一系数矩阵。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一提示矩阵和所述第二提示矩阵确定所述第一系数矩阵,包...

【专利技术属性】
技术研发人员:刘小康李健铨赵彦勇胡加明
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1