一种回复模型的训练方法、装置和电子设备制造方法及图纸

技术编号：40874424 阅读：2 留言：0更新日期：2024-04-08 16:42

本公开涉及自然语言处理和人工智能技术领域，尤其涉及一种回复模型的训练方法、装置和电子设备，用于解决如何提高回复模型的训练效率成了一个亟待解决的问题。该方法包括：将历史提问数据输入至待优化模型进行学习，得到待优化模型对历史提问数据预测的至少一条候选回复数据，以及每条候选回复数据的评价得分；基于评价得分，确定待优化模型的实际回复结果为最大的评价得分对应的候选回复数据；将历史提问数据输入至奖励模型进行学习，得到奖励模型对历史提问数据的预测回复数据；基于实际回复结果和预测回复数据，确定待优化模型的损失值；基于损失值和损失阈值，调整待优化模型的网络参数，直至待优化模型收敛，得到回复模型。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及自然语言处理和人工智能，尤其涉及一种回复模型的训练方法、装置和电子设备。

技术介绍

1、随着语音识别技术的发展，智能语音交互技术逐渐成为终端设备(如手机、平板电脑或智能家电等智能家居产品)的标准配置。在智能语音交互场景下，用户可以向智能家电提出问题，智能家电基于用户输入的问题，给出相应的回复。然而，目前的回复模型统通常需要手动标注训练数据，训练数据较多时，需要占用大量的人力去标注训练数据，这样会使得训练数据占用的标记时间较长，导致任务型对话系统的训练效率较低。

2、因此，如何提高回复模型的训练效率成了一个亟待解决的问题。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种回复模型的训练方法、装置和电子设备。

2、本公开的技术方案如下：

3、第一方面，本公开提供一种电子设备，包括：通信器，被配置为获取待优化模型、奖励模型和历史提问数据；其中，待优化模型和奖励模型二者均通过同一训练数据对同一预训练语言模型进行训练所得到的，训练数据至少包括训练提问数据、训练提问数据对应的至少一条训练回复数据，以及每条训练回复数据的评价得分，奖励模型的网络参数固定不变；处理器，被配置为将通信器获取的历史提问数据输入至通信器获取的待优化模型进行学习，得到待优化模型对历史提问数据预测的至少一条候选回复数据，以及每条候选回复数据的评价得分；处理器，还被配置为基于评价得分，确定待优化模型的实际回复结果为最大的评价得分对应的候选回复数据；处理器，还被配置为将通信器

4、第二方面，本公开提供一种电子设备，包括：通信器，被配置为获取实际提问信息；处理器，被配置为将通信器获取的实际提问信息输入至回复模型进行处理，得到实际提问信息对应的实际回复结果；其中，回复模型由如上述第一方面提供的；处理器，还被配置为基于实际回复结果，生成回复信息。

5、第三方面，本公开提供一种回复模型的训练方法，包括：获取待优化模型、奖励模型和历史提问数据；其中，待优化模型和奖励模型二者均通过同一训练数据对同一预训练语言模型进行训练所得到的，训练数据至少包括训练提问数据、训练提问数据对应的至少一条训练回复数据，以及每条训练回复数据的评价得分，奖励模型的网络参数固定不变；将历史提问数据输入至待优化模型进行学习，得到待优化模型对历史提问数据预测的至少一条候选回复数据，以及每条候选回复数据的评价得分；基于评价得分，确定待优化模型的实际回复结果为最大的评价得分对应的候选回复数据；将历史提问数据输入至奖励模型进行学习，得到奖励模型对历史提问数据的预测回复数据；基于实际回复结果和预测回复数据，确定待优化模型的损失值；基于损失值和损失阈值，调整待优化模型的网络参数，直至待优化模型收敛，得到回复模型。

6、第四方面，本公开提供一种回复方法，包括：获取实际提问信息；将实际提问信息输入至回复模型进行处理，得到实际提问信息对应的实际回复结果；其中，回复模型采用如上述第三方面提供的回复模型的训练方法训练得到的；基于实际回复结果，生成回复信息。

7、第五方面，本公开提供一种电子设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在执行计算机程序时，使得电子设备实现如第三方面提供的任一项的回复模型的训练方法。

8、第六方面，本专利技术提供一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行如第三方面提供的任一项的回复模型的训练方法。

9、第七方面，本专利技术提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第三方面提供的任一项的回复模型的训练方法。

10、第八方面，本公开提供一种电子设备，包括：存储器和处理器，存储器用于存储计算机程序；处理器用于在执行计算机程序时，使得电子设备实现如第四方面提供的任一项的回复方法。

11、第九方面，本专利技术提供一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行如第三方面提供的任一项的回复方法。

12、第十方面，本专利技术提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第四方面提供的任一项的回复方法。

13、需要说明的是，上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中，第一计算机可读存储介质可以与电子设备的处理器封装在一起的，也可以与服务器的处理器单独封装，本公开对此不作限定。

14、本公开中第三方面、第五方面、第六方面以及第七方面的描述，可以参考第一方面的详细描述；并且，第三方面、第五方面、第六方面以及第七方面的描述的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

15、本公开中第四方面、第八方面、第九方面以及第十方面的描述，可以参考第一方面的详细描述；并且，第四方面、第八方面、第九方面以及第十方面的描述的有益效果，可以参考第二方面的有益效果分析，此处不再赘述。

16、在本公开中，上述电子设备的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似，属于本公开权利要求及其等同技术的范围之内。

17、本公开的这些方面或其他方面在以下的描述中会更加简明易懂。

18、本公开提供的技术方案与现有技术相比具有如下优点：

19、本公开提供的回复模型的训练方法，仅需对少量的训练数据进行标注，之后预训练语言模型通过对训练数据进行学习，从而可以得到预训练的预训练语言模型。之后，通过复制该预训练的预训练语言模型，将其中的一个预训练的预训练语言模型作为待优化模型，将另一个预训练的预训练语言模型作为奖励模型，并固定奖励模型的网络参数。之后，通过将历史提问数据分别输入至待优化模型和奖励模型进行学习，之后待优化模型生成实际回复结果，奖励模型生成预测回复数据。之后，待优化模型基于实际回复结果和奖励模型生成预测回复数据，生成待优化模型的损失值，并基于损失值和损失阈值，调整待优化模型的网络参数，直至待优化模型收敛，得到回复模型。由于，待优化模型的损失值中包含了奖励模型生成预测回复数据，从而奖励模型可以监督待优化模型进行网络参数的优化，无需人工参与，从而可以提升回复模型的训练效率，解决了如何提高回复模型的训练效率的问题。

本文档来自技高网...

【技术保护点】

1.一种电子设备，其特征在于，包括：

2.根据权利要求1所述的电子设备，其特征在于，所述通信器，还被配置为获取训练数据；其中，所述训练数据包括第一数据和第二数据，所述第一数据包括所述训练提问数据，以及所述训练提问数据对应的至少一条训练回复数据，所述第二数据包括所述训练提问数据对应的至少一条训练回复数据，以及每条所述训练回复数据的评价得分；

3.根据权利要求2所述的电子设备，其特征在于，所述处理器，进一步被配置为将所述通信器获取的所述训练提问数据输入至所述预训练语言模型进行学习，得到所述预训练语言模型对所述训练提问数据的预测回复数据；

4.根据权利要求2所述的电子设备，其特征在于，所述处理器，进一步被配置为基于所述通信器获取的所述训练提问数据和所述通信器获取的所述训练提问数据对应的训练回复数据，确定训练参数；其中，所述训练参数至少包括所述训练回复数据所对应的训练提问数据的词重复率、所述训练回复数据与所述训练回复数据所对应的训练提问数据的匹配率、以及所述训练回复数据的流畅度；

5.根据权利要求1所述的电子设备，其特征在于，所述处理器，进

6.根据权利要求1所述的电子设备，其特征在于，所述处理器，进一步被配置为在所述损失值大于损失阈值的情况下，调整所述待优化模型的网络参数，并重新将历史提问数据输入至所述待优化模型进行学习，直至所述损失值小于或等于所述损失阈值的情况下，确定所述待优化模型收敛，得到回复模型。

7.一种电子设备，其特征在于，包括：

8.一种回复模型的训练方法，其特征在于，包括：

9.一种回复方法，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被计算设备执行时，使得所述计算设备实现权利要求8所述的回复模型的训练方法，或者使得所述计算设备实现权利要求9所述的回复方法。

...

【技术特征摘要】

1.一种电子设备，其特征在于，包括：

【专利技术属性】
技术研发人员：李家欢，李俊彦，
申请(专利权)人：海信电子科技武汉有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人