大语言模型训练方法、文本生成方法和相关装置制造方法及图纸

技术编号：40829388 阅读：4 留言：0更新日期：2024-04-01 14:51

本申请实施例提供大语言模型训练方法、文本生成方法和相关装置，涉及人工智能技术领域。该方法利用大语言模型得到包含位置标记的问答对的第一标记向量和第一答案向量，再利用位置标记得到掩码问答句，得到掩码问答句的第二标记向量和第二答案向量；根据第一标记向量和第二标记向量计算第一损失值，根据第一答案向量和第二答案向量计算第二损失值，从而根据损失值得到目标大语言模型。将问答句的位置标记融入编码器的表达过程实现对比学习，在损失函数中融入位置信息，将问答对的生成结果进行对齐，捕捉问题与答案之间的映射关系，在整体上进行指令微调，提升大语言模型在指令遵循方面的能力，提升大语言模型的文本生成准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，尤其涉及大语言模型训练方法、文本生成方法和相关装置。

技术介绍

1、大语言模型是一种基于神经网络的自然语言处理技术，可以用于文本生成、机器翻译、对话系统等应用中。具体来说大语言模型通过学习大量的文本数据，尝试预测下一个单词或字符出现的概率，从而能够生成与训练数据类似的文本。

2、相关技术中，大语言模型大多采用指令微调的训练方法，这种训练方法将问答对作为样本输入大语言模型，并根据答案的输出来计算损失函数。然而，这种训练方法仅仅是自回归训练方式的简化版本，不能提升大语言模型的指令跟随能力，导致大语言模型的文本生成准确率不高。

技术实现思路

1、本申请实施例的主要目的在于提出大语言模型训练方法、文本生成方法和相关装置，提高大语言模型的文本生成准确率。

2、为实现上述目的，本申请实施例的第一方面提出了一种大语言模型训练方法，包括：

3、获取问答对；所述问答对利用位置标记对样本问题和样本答案进行标记；

4、将所述问答对输入初始大语言模型进行编码，得到所述位置标记对应的第一标记向量和所述样本答案对应的第一答案向量；

5、利用所述位置标记对所述问答对中所述样本问题进行掩码，得到掩码问答句，将所述掩码问答句输入初始大语言模型进行编码，得到所述位置标记对应的第二标记向量和掩码所述样本问题后对应的第二答案向量；

6、根据所述第一标记向量和所述第二标记向量计算第一损失值，以及根据所述第一答案向量和所述第二答案向量

7、基于所述总损失值对所述初始大语言模型进行权重调整，直到达到迭代终止条件，得到目标大语言模型。

8、在一些实施例，所述位置标记包括问题开始标记、问题结束标记和答案结束标记；所述获取问答对之前，所述方法包括：

9、将所述样本问题拼接于所述问题开始标记之后，得到第一文本；

10、将所述问题结束标记拼接于所述第一文本之后，得到第二文本；

11、将所述样本答案拼接于所述第二文本之后，得到第三文本；

12、将所述答案结束标记拼接于所述第三文本之后，得到所述问答对。

13、在一些实施例，所述第一标记向量包括第一问题结束向量和第一答案结束向量，所述第二标记向量包括第二答案结束向量；所述根据所述第一标记向量和所述第二标记向量计算第一损失值，包括：

14、将所述第一问题结束向量经过第一映射矩阵进行映射，得到第一映射向量；

15、将所述第一答案结束向量经过第一映射矩阵进行映射，得到第二映射向量；

16、将所述第二答案结束向量经过第一映射矩阵进行映射，得到第三映射向量；

17、基于所述第一映射向量、所述第二映射向量和所述第三映射向量得到所述第一损失值。

18、在一些实施例，所述问答对的数量为多个；所述基于所述第一映射向量、所述第二映射向量和所述第三映射向量得到所述第一损失值，包括：

19、获取所述第一映射向量和所述第二映射向量的差值作为第一数值，基于所述第一数值和所述第三映射向量的乘积，得到第二数值；

20、获取同一训练批次的每个所述问答对的第三映射向量和所述第一数值的乘积，得到对应的第三数值，累加所述第三数值得到第四数值；

21、根据所述第二数值与所述第三数值的商，得到第五数值；

22、将同一训练批次的每个所述问答对的所述第五数值进行累加求平均，得到所述第一损失值。

23、在一些实施例，所述问答对包括多个文本单元；所述根据所述第一答案向量和所述第二答案向量计算第二损失值，包括：

24、获取所述第一答案向量对应的第一概率序列，以及获取所述第二答案向量对应的第二概率序列；所述第一概率序列由所述文本单元的第一概率值构成，所述第二概率序列由所述文本单元的第二概率值构成；

25、根据所述第一概率值和所述第二概率值计算得到第六数值；

26、累加所述第六数值得到所述问答对的第七数值；

27、将同一训练批次的每个所述问答对的所述第七数值进行累加求平均，得到所述第二损失值。

28、在一些实施例，所述文本单元包括索引值；所述获取所述第一答案向量对应的第一概率序列，以及获取所述第二答案向量对应的第二概率序列，包括：

29、将所述第一答案向量经过第二映射矩阵进行映射，得到第四映射向量，并对所述第四映射向量进行归一化操作得到第五映射向量；

30、基于所述索引值对所述第五映射向量进行索引，得到每个所述文本单元的所述第一概率值，并基于所述第一概率值构成所述第一概率序列；

31、将所述第二答案向量经过第二映射矩阵进行映射，得到第六映射向量，并对所述第六映射向量进行归一化操作得到第七映射向量；

32、基于所述索引值对所述第七映射向量进行索引，得到每个所述文本单元的所述第二概率值，并基于所述第二概率值构成所述第二概率序列。

33、为实现上述目的，本申请实施例的第二方面提出了一种文本生成方法，包括：

34、获取待处理文本；

35、将所述待处理文本输入由第一方面任一项所述的大语言模型训练方法训练得到的目标大语言模型进行文本生成，得到目标文本。

36、为实现上述目的，本申请实施例的第三方面提出了一种大语言模型训练装置，包括：

37、问答对获取模块：用于获取问答对；所述问答对利用位置标记对样本问题和样本答案进行标记；

38、第一编码模块：用于将所述问答对输入初始大语言模型进行编码，得到所述位置标记对应的第一标记向量和所述样本答案对应的第一答案向量；

39、掩码后编码模块：用于利用所述位置标记对所述问答对中所述样本问题进行掩码，得到掩码问答句，将所述掩码问答句输入初始大语言模型进行编码，得到所述位置标记对应的第二标记向量和掩码所述样本问题后对应的第二答案向量；

40、损失值计算模块：用于根据所述第一标记向量和所述第二标记向量计算第一损失值，以及根据所述第一答案向量和所述第二答案向量计算第二损失值，根据所述第一损失值和所述第二损失值计算总损失值；

41、权重迭代模块：用于基于所述总损失值对所述初始大语言模型进行权重调整，直到达到迭代终止条件，得到目标大语言模型。

42、为实现上述目的，本申请实施例的第四方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面或第二方面所述的方法。

43、为实现上述目的，本申请实施例的第五方面提出了一种存储介质，所述存储介质为存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面或第二方面所述的方法。

44、本申请实施例提出的大语言模型训练方法、文本生本文档来自技高网...

【技术保护点】

1.一种大语言模型训练方法，其特征在于，包括：

2.根据权利要求1所述的大语言模型训练方法，其特征在于，所述位置标记包括问题开始标记、问题结束标记和答案结束标记；所述获取问答对之前，所述方法包括：

3.根据权利要求1所述的大语言模型训练方法，其特征在于，所述第一标记向量包括第一问题结束向量和第一答案结束向量，所述第二标记向量包括第二答案结束向量；所述根据所述第一标记向量和所述第二标记向量计算第一损失值，包括：

4.根据权利要求3所述的大语言模型训练方法，其特征在于，所述问答对的数量为多个；所述基于所述第一映射向量、所述第二映射向量和所述第三映射向量得到所述第一损失值，包括：

5.根据权利要求3所述的大语言模型训练方法，其特征在于，所述问答对包括多个文本单元；所述根据所述第一答案向量和所述第二答案向量计算第二损失值，包括：

6.根据权利要求5所述的大语言模型训练方法，其特征在于，所述文本单元包括索引值；所述获取所述第一答案向量对应的第一概率序列，以及获取所述第二答案向量对应的第二概率序列，包括：

7.一种文本生成方法，其特征在于，包括：

8.一种大语言模型训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的大语言模型训练方法。

10.一种存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的大语言模型训练方法。

...

【技术特征摘要】

1.一种大语言模型训练方法，其特征在于，包括：

5.根据权利要求3所述的大语言模型训练方法，其特征在于，所述问答对包括多个文本单...

【专利技术属性】
技术研发人员：陈焕坤，王伟，曾志贤，张黔，张兴，夏修理，
申请(专利权)人：华润数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人