模型训练方法、装置、存储介质及电子设备制造方法及图纸

技术编号：41312680 阅读：2 留言：0更新日期：2024-05-13 14:55

本发明专利技术提供了一种模型训练方法、装置、存储介质及电子设备，该方法包括：获取待训练的生成式大语言模型以及样本数据；样本数据包括多轮对话数据；每一轮的对话数据包括对话输入数据以及样本标签，样本标签包括对话输入数据对应的期望对话答复数据；将多轮对话数据输入到生成式大语言模型，获得每一轮对话数据中的对话输入数据对应的预测答复数据；根据每一轮对话数据中的样本标签以及对话输入数据对应的预测答复数据，计算出每一轮对话数据对应的损失函数值；利用每一轮对话数据对应的损失函数值调整生成式大语言模型的模型参数，以实现对生成式大语言模型的训练。能够提升模型训练效率，以及提升生成式大语言模型的输出准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，特别涉及一种模型训练方法、装置、存储介质及电子设备。

技术介绍

1、随着深度学习技术的发展，生成式大语言模型也得到了越来越广泛的应用，用户可以与生成式大语言模型进行交互，以获得生成式大语言模型的输出信息。而为了使得大语言模型能够准确输出用户所需的信息，通常需要对大语言模型进行训练。

2、目前，训练大语言模型的方式通常是将一条多轮对话数据进行拆分成多条训练数据，然后分别输入到生成式大语言模型中，以对生成式大语言模型进行训练，然而，采用不连续的对话数据对大语言模型进行训练，会使得生成式大语言模型交互时生成的答复数据不准确。

技术实现思路

1、本专利技术所要解决的技术问题是提供一种模型训练方法、装置、存储介质及电子设备，能够提升生成式大语言模型的输出准确度。具体方案如下：

2、一种模型训练方法，包括：

3、获取待训练的生成式大语言模型以及样本数据；所述样本数据包括多轮对话数据；每一轮的所述对话数据包括对话输入数据以及样本标签，所述样本标签包括所述对话输入数据对应的期望对话答复数据；

4、将所述多轮对话数据输入到所述生成式大语言模型，获得每一轮所述对话数据中的对话输入数据对应的预测答复数据；

5、根据每一轮所述对话数据中的样本标签以及对话输入数据对应的预测答复数据，计算出每一轮所述对话数据对应的损失函数值；

6、利用每一轮所述对话数据对应的损失函数值调整所述生成式大语言模型的模型参数，以实现对所述生成式大语言模型的训练。

7、上述的方法，可选的，所述将所述多轮对话数据输入到所述生成式大语言模型，获得每一轮所述对话数据中的对话输入数据对应的预测答复数据，包括：

8、将所述多轮对话数据输入到所述生成式大语言模型，以使得所述生成式大语言模型基于所述多轮对话数据中的首轮对话数据中的对话输入数据，获得首轮对话数据中的对话输入数据的预测答复数据；并对于所述多轮对话数据中除所述首轮对话数据以外的每一轮次的对话数据，基于所述轮次的对话数据中的对话输入数据以及历史对话数据，生成所述轮次的对话数据中的对话输入数据对应的预测答复数据；所述历史对话数据为所述轮次之前的所有轮次对话数据中的对话数据输入数据以及样本标签。

9、上述的方法，可选的，获取样本数据的过程，包括：

10、获取初始样本数据；所述初始样本数据包括多轮初始对话数据，每一轮初始对话数据包括初始对话输入数据以及样本标签；

11、为所述初始样本数据中的各轮初始对话数据中的初始对话输入数据分别拼接各自对应的轮次信息，获得样本数据。

12、上述的方法，可选的，所述获得样本数据，包括：

13、在所述初始样本数据中的首轮初始对话数据之前拼接起始符，所述起始符用于指示对话开始；

14、在所述初始样本数据中的每轮对话数据之后拼接对话终止符，所述对话终止符用于指示当前轮次的对话终止；

15、在所述初始样本数据中的最后一轮对话数据的所述对话终止符之后拼接与所述起始符对应的终止符，以得到样本数据，所述终止符用于指示对话结束。

16、上述的方法，可选的，所述获取初始样本数据，包括：

17、获取第一初始样本数据以及第二初始样本数据；所述第一初始样本数据包含的多轮初始对话数据中存在至少一轮对话干扰数据，所述对话干扰数据的话题与所述第一初始样本数据中除所述对话干扰数据以外的初始对话数据的话题不一致；所述第二初始样本数据包含的多轮初始对话数据中不存在对话干扰数据；

18、将所述第一初始样本数据以及所述第二初始样本数据均作为初始样本数据。

19、上述的方法，可选的，所述利用每一轮所述对话数据对应的损失函数值调整所述生成式大语言模型之后，还包括：

20、在所述生成式大语言模型满足预设的训练完成条件的情况下，接收用户的当前对话输入数据；

21、将所述当前对话输入数据输入到满足所述训练完成条件的所述生成式大语言模型中，获得所述当前对话输入数据对应的对话答复数据；

22、输出所述当前对话输入数据对应的对话答复数据。

23、一种模型训练装置，包括：

24、获取单元，用于获取待训练的生成式大语言模型以及样本数据；所述样本数据包括多轮对话数据；每一轮的所述对话数据包括对话输入数据以及样本标签，所述样本标签包括所述对话输入数据对应的期望对话答复数据；

25、输入单元，用于将所述多轮对话数据输入到所述生成式大语言模型，获得每一轮所述对话数据中的对话输入数据对应的预测答复数据；

26、计算单元，用于根据每一轮所述对话数据中的样本标签以及对话输入数据对应的预测答复数据，计算出每一轮所述对话数据对应的损失函数值；

27、调整单元，用于利用每一轮所述对话数据对应的损失函数值调整所述生成式大语言模型的模型参数，以实现对所述生成式大语言模型的训练。

28、上述的装置，可选的，所述输入单元，包括：

29、输入子单元，用于将所述多轮对话数据输入到所述生成式大语言模型，以使得所述生成式大语言模型基于所述多轮对话数据中的首轮对话数据中的对话输入数据，获得首轮对话数据中的对话输入数据的预测答复数据；并对于所述多轮对话数据中除所述首轮对话数据以外的每一轮次的对话数据，基于所述轮次的对话数据中的对话输入数据以及历史对话数据，生成所述轮次的对话数据中的对话输入数据对应的预测答复数据；所述历史对话数据为所述轮次之前的所有轮次对话数据中的对话数据输入数据以及样本标签。

30、一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的模型训练方法。

31、一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的模型训练方法。

32、基于上述本专利技术实施提供的一种模型训练方法、装置、存储介质及电子设备，该方法包括：获取待训练的生成式大语言模型以及样本数据；所述样本数据包括多轮对话数据；每一轮的所述对话数据包括对话输入数据以及样本标签，所述样本标签包括所述对话输入数据对应的期望对话答复数据；将所述多轮对话数据输入到所述生成式大语言模型，获得每一轮所述对话数据中的对话输入数据对应的预测答复数据；根据每一轮所述对话数据中的样本标签以及对话输入数据对应的预测答复数据，计算出每一轮所述对话数据对应的损失函数值；利用每一轮所述对话数据对应的损失函数值调整所述生成式大语言模型的模型参数，以实现对所述生成式大语言模型的训练。通过本专利技术实施例提供的方法，能够一次性利用连续的多轮对话数据训练生成式大语言模型，能够有效地提升训练效率，并且能够充分地利用样本数据中的每一轮对话数据，可以提升生成式大语言模型的输出准确度。

本文档来自技高网...

【技术保护点】

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述多轮对话数据输入到所述生成式大语言模型，获得每一轮所述对话数据中的对话输入数据对应的预测答复数据，包括：

3.根据权利要求1所述的方法，其特征在于，获取样本数据的过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述获得样本数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述获取初始样本数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述利用每一轮所述对话数据对应的损失函数值调整所述生成式大语言模型之后，还包括：

7.一种模型训练装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述输入单元，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~6任意一项所述的模型训练方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上

...

【技术特征摘要】

1.一种模型训练方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，获取样本数据的过程，包括：

4.根据权利要求3所述的方法，其特征在于，所述获得样本数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述获取初始样本数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述利用每一轮所述对话数据对应的损失...

【专利技术属性】
技术研发人员：滕泽宇，欧阳晔，
申请(专利权)人：亚信科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人