一种自然语言处理模型的训练方法和装置制造方法及图纸

技术编号：34534027 阅读：35 留言：0更新日期：2022-08-13 21:27

本申请提供了一种自然语言处理模型的训练方法和装置，该方法在采用了自注意力机制的预训练语言模型的基础上，通过融合多个自然语言处理任务的提示矩阵来更新其中的单个自然语言处理任务的提示矩阵，然后将自然语言处理任务的训练样本数据和更新后的提示矩阵输入该模型，来训练更新后的提示矩阵。该方法通过将多个自然语言处理任务联合学习，进行了隐式的数据增强，提升了模型的表示能力，由于自然语言处理任务之间具有递进关系或者相似关系，能够通过多个任务的提示矩阵的联合学习来提升提示调整方法的效果。升提示调整方法的效果。升提示调整方法的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种自然语言处理模型的训练方法和装置

[0001]本申请涉及自然语言处理
，尤其涉及一种自然语言处理模型的训练方法和装置。

技术介绍

[0002]在自然语言处理(Natural Language Processing，NLP)领域，“提示”(Prompt)是将人为的规则给到预训练语言模型，使模型可以更好地理解人的指令的一项技术，可以简单理解为给任务的输入加入补充文本，以便更好地利用预训练语言模型。
[0003]与一般的微调(Fine
‑
Tuning)相比，提示调整(Prompt Tuning)将Prompt加入到微调过程中，并且可以做到只对Prompt部分的参数进行训练，同时保证整个预训练模型的参数固定不变，这种灵活性是一般的Fine
‑
tuning无法做到的。
[0004]因此，如何进一步提升使用提示调整方法训练预训练语言模型的效果值得研究。

技术实现思路

[0005]本申请提供了一种自然语言处理模型的训练方法和装置，能够进一步提升使用提示调整方法训练预训练语言模型的效果。
[0006]第一方面，提供了一种自然语言处理模型的训练方法，包括：
[0007]获取预训练语言模型，预训练语言模型的第一层为采用自注意力机制的层结构；
[0008]确定第一任务在第一层对应的第一提示矩阵、第二任务在第一层对应的第二提示矩阵，第一提示矩阵和第二提示矩阵为用作连续提示的可学习向量矩阵，第一任务和第二任务属于自然语言处理任务；
[...

【技术保护点】

【技术特征摘要】
1.一种自然语言处理模型的训练方法，其特征在于，包括：获取预训练语言模型，所述预训练语言模型的第一层为采用自注意力机制的层结构；确定第一任务在第一层对应的第一提示矩阵、第二任务在第一层对应的第二提示矩阵，所述第一提示矩阵和所述第二提示矩阵为用作连续提示的可学习向量矩阵，所述第一任务和所述第二任务属于自然语言处理任务；根据所述第二提示矩阵确定第一层的第一系数矩阵；根据所述第一系数矩阵、所述第一提示矩阵和所述第二提示矩阵，更新所述第一提示矩阵；根据所述第一任务的训练样本数据、更新后的所述第一提示矩阵，训练所述更新后的所述第一提示矩阵，其中，所述第一任务在第一层对应的自注意力机制运算的输入包括第一拼接向量矩阵，所述第一拼接向量矩阵由第一层的第一向量矩阵和所述更新后的所述第一提示矩阵拼接得到，所述第一向量矩阵为与所述第一任务对应的键向量矩阵或值向量矩阵。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述第一提示矩阵确定第一层的第二系数矩阵；根据所述第二系数矩阵、所述第一提示矩阵和所述第二提示矩阵，更新所述第二提示矩阵；根据所述第二任务的训练样本数据、更新后的所述第二提示矩阵，训练所述更新后的所述第二提示矩阵，其中，所述第二任务在第一层对应的自注意力机制运算的输入包括第二拼接向量矩阵，所述第二拼接向量矩阵由第一层的第二向量矩阵和所述更新后的所述第二提示矩阵拼接得到，所述第二向量矩阵为与所述第二任务对应的键向量矩阵或值向量矩阵。3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第二提示矩阵确定第一层的第一系数矩阵，包括：初始化与所述第二提示矩阵对应的第一权重矩阵，所述第一权重矩阵是基于所述第一任务的训练样本数据和所述第二任务的训练样本数据的可学习的矩阵；确定第一激活函数以及与所述第二提示矩阵对应的第一偏置矩阵；将所述第一权重矩阵、所述第二提示矩阵、所述第一偏置矩阵作为所述第一激活函数的输入，将所述第一激活函数的输出确定为第一层的所述第一系数矩阵。4.根据权利要求1或2所述的方法，其特征在于，所述预训练语言模型的第二层为采用自注意力机制的层结构，所述方法还包括：确定第二任务在第二层对应的第三提示矩阵，所述第三提示矩阵为用作连续提示的可学习向量矩阵。5.根据权利要求4所述的方法，其特征在于，所述根据所述第一系数矩阵、所述第一提示矩阵和所述第二提示矩阵，更新所述第一提示矩阵，包括：根据所述第一提示矩阵和所述第三提示矩阵确定第二层的第三系数矩阵；根据所述第一系数矩阵、所述第三系数矩阵、所述第一提示矩阵、所述第二提示矩阵和所述第三提示矩阵，更新所述第一提示矩阵；其中，所述根据所述第二提示矩阵确定第一层的第一系数矩阵，包括：
根据所述第一提示矩阵和所述第二提示矩阵确定所述第一系数矩阵。6.根据权利要求5所述的方法，其特征在于，所述根据所述第一提示矩阵和所述第二提示矩阵确定所述第一系数矩阵，包...

【专利技术属性】
技术研发人员：刘小康，李健铨，赵彦勇，胡加明，
申请(专利权)人：鼎富智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人