生成式自然语言模型训练方法、系统、设备及存储介质技术方案

技术编号：41148295 阅读：5 留言：0更新日期：2024-04-30 18:15

本发明专利技术涉及人工智能技术领域，具体提供一种生成式自然语言模型训练方法、系统、设备及存储介质，旨在解决生成式自然语言模型训练时间长、资源消耗大的技术问题。为此目的，本发明专利技术方法包括：获取各个文本数据样本对应的编码样本数据并进行拼接处理，获取拼接样本数据；获取拼接样本数据对应的注意力掩码；基于拼接样本数据、注意力掩码，对生成式自然语言模型进行训练。通过数据拼接，使训练迭代过程大大缩短，极大地加快模型训练效率；另外，通过引入屏蔽不同样本的注意力掩码机制，使样本拼接不影响最终训练效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体提供一种生成式自然语言模型训练方法、系统、设备及存储介质。

技术介绍

1、生成式自然语言模型是一种以机器学习为基础的模型，能够生成人类语言的文字。通过对大量文本数据的学习，这些模型可以理解和模仿人类的语言模式，生成符合语法和逻辑的句子。它们不仅被用于回答问题、写作助手、聊天机器人，还被应用于机器翻译、文字摘要、生成文章等诸多领域。

2、近年来，随着大数据和深度学习技术的发展，自然语言生成模型取得显著突破。随着chatgpt的走红，基于transformer的生成式自然语言模型越来越受到各类公司、研究机构、学术领域的关注。这些模型之所以突破性地解决很多编写文章、回答问题、翻译语言等，与两个方面的改进密切相关，一方面是训练数据量非常多，另一方面是模型的参数量十分庞大。在达成显著效果的同时，也引入了一个新的问题，就是当前自然语言大模型的训练极其耗费计算资源和时间。因此，如何能在保证训练效果的同时，加速自然语言大模型的训练，是一个迫切需要解决的问题。

技术实现思路

1、为了克服上述缺陷，提出了本专利技术，以提供解决或至少部分地解决生成式自然语言模型训练时间长、资源消耗大的技术问题。

2、在第一方面，本专利技术提供了一种生成式自然语言模型训练方法，包括：

3、基于对每个文本数据样本进行编码转换，获取各个文本数据样本对应的编码样本数据；

4、基于对多个编码样本数据进行拼接处理，获取拼接样本数据，其中，所述拼接样本数据的

5、获取所述拼接样本数据对应的注意力掩码；其中，所述注意力掩码是根据各个编码样本数据中的位置关系及位置所在的样本归属关系设置；

6、基于所述拼接样本数据、所述注意力掩码，对所述生成式自然语言模型进行训练。

7、在一个实施例中，所述注意力掩码为maskij；

8、

9、其中，maskij表示i位置的表征在j位置的注意力掩码，-inf表示负无穷或预设负数，si表示位置i所在的样本，sj表示位置j所在的样本。

10、在一个实施例中，基于所述拼接样本数据、所述注意力掩码，在所述生成式自然语言模型中生成第lm层位置i处的输出表征时，计算lm-1层位置i处的输出表征xi在lm-1层各个位置上输出表征的注意力得分scoreij，计算过程如下：

11、

12、其中，aij＝queryi·keyj；queryi＝wq·xi；keyj＝wk·xj；wq表示用于计算得到query的权重矩阵，wk表示用于计算得到key的权重矩阵；e为预设自然数；查询值queryi是基于位置i的输出表征xi计算获得；键值keyj是基于位置j的输出表征xj计算获得；匹配度aij通过查询值queryi、键值keyj的点乘计算获得；注意力得分scoreij为在各个位置属性值上的权重。

13、在一个实施例中，第lm层位置i处的输出表征为

14、valuej＝wv·xj

15、

16、其中，l是训练长度，wv是计算value的权重矩阵，是lm层位置i的输出表征；属性值valuej是通过输出表征xj计算获得；scoreij为在各个位置属性值上的权重；通过属性值valuej、注意力得分scoreij加权求和后，获得位置i处的输出表征为

17、在一个实施例中，基于每个文本数据样本、所述生成式自然语言模型中生成的输出表征，对所述生成式自然语言模型进行监督训练。

18、在一个实施例中，对多个编码样本数据进行拼接处理，获取拼接样本数据，若所述拼接样本数据的长度小于所述生成式自然语言模型处理的训练长度，则在所述拼接样本数据中填充占位编码，直至等于所述训练长度。

19、在一个实施例中，通过设置损失掩码，对所述拼接样本数据中填充的占位编码进行遮盖处理。

20、在一个实施例中，所述生成式自然语言模型是指通过大量文本数据训练的深度学习模型；其中，训练方法包括以下至少之一：有监督、自监督、半监督。

21、在一个实施例中，对多个编码样本数据进行拼接的方式包括以下至少之一：随机拼接、依次拼接、选择拼接。

22、在第二方面，本专利技术提供一种生成式自然语言模型训练系统，包括：

23、编码转换模块，用于基于对每个文本数据样本进行编码转换，获取各个文本数据样本对应的编码样本数据；

24、拼接处理模块，用于基于对多个编码样本数据进行拼接处理，获取拼接样本数据，其中，所述拼接样本数据的长度小于或等于所述生成式自然语言模型处理的训练长度；

25、设置模块，用于获取所述拼接样本数据对应的注意力掩码；其中，所述注意力掩码是根据各个编码样本数据中的位置关系及位置所在的样本归属关系设置；

26、训练模块，用于基于所述拼接样本数据、所述注意力掩码，对所述生成式自然语言模型进行训练

27、在第三方面，提供一种计算机设备，包括处理器和存储装置，其中所述存储器中存储有程序，所述处理器执行所述程序时实现上述方法的技术方案中任一项技术方案所述的生成式自然语言模型训练方法。

28、在第四方面，提供一种计算机可读存储介质，存储有程序，所述程序被执行时实现上述方法的技术方案中任一项技术方案所述的生成式自然语言模型训练方法。

29、本专利技术上述一个或多个技术方案，至少具有如下一种或多种有益效果：

30、在实施本专利技术的技术方案中：基于对每个文本数据样本进行编码转换，获取各个文本数据样本对应的编码样本数据；基于对多个编码样本数据进行拼接处理，获取拼接样本数据，其中，所述拼接样本数据的长度小于或等于所述生成式自然语言模型处理的训练长度；获取所述拼接样本数据对应的注意力掩码；其中，所述注意力掩码是根据各个编码样本数据中的位置关系及位置所在的样本归属关系设置；基于所述拼接样本数据、所述注意力掩码，对所述生成式自然语言模型进行训练。本方案通过将编码样本数据拼接，使模型训练的迭代过程大大缩短，从而极大地加快了模型的训练效率，另外通过引入屏蔽不同样本的注意力掩码机制，使样本拼接不影响最终的训练效果。

31、进一步地，鉴于通过样本数据拼接处理及设置注意力掩码，无需对模型本身进行调整，简单有效。

32、进一步地，由于无需对模型本身进行调整，因此通用性强，适用于各种基于transformer结构、modelscope结构的生成式自然语言模型的训练。

本文档来自技高网...

【技术保护点】

1.一种生成式自然语言模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述注意力掩码为maskij；

3.根据权利要求2所述的方法，其特征在于，基于所述拼接样本数据、所述注意力掩码，在所述生成式自然语言模型中生成第lm层位置i处的输出表征时，计算lm-1层位置i处的输出表征xi在lm-1层各个位置上输出表征的注意力得分scoreij，计算过程如下：

4.根据权利要求3所述的方法，其特征在于，第lm层位置i处的输出表征为

5.根据权利要求4所述的方法，其特征在于，基于每个文本数据样本、所述生成式自然语言模型中生成的输出表征，对所述生成式自然语言模型进行监督训练。

6.根据权利要求1所述的方法，其特征在于，对多个编码样本数据进行拼接处理，获取拼接样本数据，若所述拼接样本数据的长度小于所述生成式自然语言模型处理的训练长度，则在所述拼接样本数据中填充占位编码，直至等于所述训练长度。

7.根据权利要求6所述的方法，其特征在于，通过设置损失掩码，对所述拼接样本数据中填充的占位编码进行遮盖处理。

8.根据权利要求1所述的方法，其特征在于，所述生成式自然语言模型是指通过大量文本数据训练的深度学习模型；其中，训练方法包括以下至少之一：有监督、自监督、半监督。

9.根据权利要求1所述的方法，其特征在于，对多个编码样本数据进行拼接的方式包括以下至少之一：随机拼接、依次拼接、选择拼接。

10.一种生成式自然语言模型训练系统，其特征在于，包括：

11.一种计算机设备，包括处理器和存储装置，其中所述存储器中存储有程序，其特征在于，所述处理器执行所述程序时实现权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被执行时实现权利要求1至9中任一项所述的方法。

...

【技术特征摘要】

1.一种生成式自然语言模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述注意力掩码为maskij；

4.根据权利要求3所述的方法，其特征在于，第lm层位置i处的输出表征为

6.根据权利要求1所述的方法，其特征在于，对多个编码样本数据进行拼接处理，获取拼接样本数据，若所述拼接样本数据的长度小于所述生成式自然语言模型处理的训练长度，则在所述拼接样...

【专利技术属性】
技术研发人员：袁哲，钟翔，董全超，
申请(专利权)人：芜湖云从科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人