对话模型训练方法、回复信息生成方法、装置及介质制造方法及图纸

技术编号：39050819 阅读：12 留言：0更新日期：2023-10-12 19:43

本公开提供了一种对话模型训练方法、回复信息生成方法、装置及介质，涉及人工智能技术领域，尤其涉及自然语言处理、智能对话技术领域。实现方案为：获取第一样本数据集；将至少一个第一样本数据对应的至少一个第一问题文本分别输入对话模型，以获得至少一个第一回复预测结果；将每个第二问题文本输入对话模型，以获得对话模型输出的第二回复预测结果；以及将第二回复预测结果输入奖励模型中，以获得奖励模型输出的第二回复预测结果的得分；基于至少一个第一回复预测结果、至少一个第一样本数据中的每个的第一回复文本以及至少一个第二样本数据中的每个对应的得分，确定综合损失；以及基于综合损失，调整对话模型的至少一个参数。数。数。

全部详细技术资料下载

【技术实现步骤摘要】
对话模型训练方法、回复信息生成方法、装置及介质

[0001]本公开涉及人工智能
，尤其涉及自然语言处理、智能对话
，具体涉及一种对话模型的训练方法、基于对话模型实现的回复信息生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]基于超大规模语言模型的任务式对话生成技术是当前人工智能领域的研究热点之一。这种技术利用大规模语言模型的自然语言生成能力，结合任务式对话的特定需求，可以生成符合特定任务要求的对话内容。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种对话模型的训练方法、基于对话模型实现的回复信息生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面，提供了一种对话模型的训练方法，包括：获取第一样本数据集...

【技术保护点】

【技术特征摘要】
1.一种对话模型的训练方法，包括：获取第一样本数据集，所述第一样本数据集包括至少一个第一样本数据和至少一个第二样本数据，所述至少一个第一样本数据中的每个包括第一问题文本和第一回复文本，所述至少一个第二样本数据中的每个包括第二问题文本；利用所述第一样本数据集，执行如下第一训练过程以训练所述对话模型：将所述至少一个第一样本数据对应的至少一个第一问题文本分别输入所述对话模型，以获得所述对话模型输出的相应的至少一个第一回复预测结果；针对所述至少一个第二样本数据中的每个的第二问题文本，执行下述操作：将该第二问题文本输入所述对话模型，以获得所述对话模型输出的第二回复预测结果；以及将所述第二回复预测结果输入奖励模型中，以获得所述奖励模型输出的所述第二回复预测结果的得分，所述奖励模型基于至少一个样本问题、所述至少一个样本问题中的每个对应的多个回复文本以及所述多个回复文本中每个的标签训练获得，所述标签指示相应回复文本的用户满意度；基于所述至少一个第一回复预测结果、所述至少一个第一样本数据中的每个的第一回复文本以及所述至少一个第二样本数据中的每个对应的得分，确定综合损失；以及基于所述综合损失，调整所述对话模型的至少一个参数。2.根据权利要求1所述的方法，其中，所述基于所述至少一个第一回复预测结果、所述至少一个第一样本数据中的每个的第一回复文本以及所述至少一个第二样本数据中的每个对应的得分，确定综合损失包括：基于所述至少一个第一样本数据中的每个的第一回复文本以及对应的第一回复预测结果，确定第一损失；基于所述至少一个第二样本数据对应的至少一个得分，确定第二损失；以及基于所述第一损失和所述第二损失，确定所述综合损失。3.根据权利要求2所述的方法，其中，所述基于所述至少一个第二样本数据对应的至少一个得分，确定第二损失包括：基于所述至少一个得分，确定所述至少一个得分的均值和方差；针对所述至少一个得分中的每个得分，基于所述均值和所述方差对该得分进行归一化，以获得更新后的得分；以及基于至少一个更新后的得分，确定所述第二损失。4.根据权利要求2或3所述的方法，其中，所述基于所述第一损失和所述第二损失，确定所述综合损失包括：基于所述第一损失对应的第一预设权重和所述第二损失对应的第二预设权重，对所述第一损失和所述第二损失进行加权，以获得所述综合损失。5.根据权利要求2至4中任一项所述的方法，还包括：获取预训练语言模型和第二样本数据集，所述第二样本数据集包括至少一个第三样本数据，所述至少一个第三样本数据中的每个包括第三问题文本和第三回复文本，所述预训练语言模型基于预设数量的无监督样本语料训练获得；以及在利用所述第一样本数据集训练所述对话模型之前，基于所述第二样本数据集中的每
个第三样本数据重复执行下述针对所述预训练语言模型的训练操作直至所述预训练语言模型收敛，以获得初始对话模型：将该第三样本数据对应的第三问题文本输入所述预训练语言模型，以获得所述预训练语言模型输出的第三回复预测结果；以及基于所述第三回复预测结果以及该第三样本数据对应的第三回复文本，调整所述预训练语言模型的参数，以更新所述预训练语言模型。6.根据权利要求5所述的方法，其中，所述对话模型是在所述初始对话模型的基础上经过至少一次所述第一训练过程获得的，所述方法还包括：将该第二问题文本输入所述初始对话模型，以获得所述初始对话模型输出的第四回复预测结果；并且其中，所述基于所述至少一个第二样本数据对应的至少一个得分，确定第二损失包括：基于所述至少一个得分、所述至少一个第二样本数据中的每个对应的第二问题文本、第二回复预测结果和第四回复预测结果，确定所述第二损失。7.根据权利要求1至6中任一项所述的方法，其中，所述至少一个第一样本数据的第一数量和所述至少一个第二样本数据的第二数量均为多个，并且所述第一数量和所述第二数量符合预设比例。8.一种基于对话模型实现的回复信息生成方法，包括：获取用户的问题文本；将所述问题文本输入所述对话模型中，以获得所述对话模型生成的回复文本，其中，所述对话模型根据权利要求1
‑
7中任一项所述的训练方法训练得到。9.一种对话模型的训练装置，包括：第一获取单元，被配置为获取第一样本数据集，所述第一样本数据集包括至少一个第一样本数据和至少一个第二样本数据，所述至少一个第一样本数据中的每个包括第一问题文本和第一回复文本，所述至少一个第二样本数据中的每个包括第二问题文本；第一训练单元，被配置为利用所述第一样本数据集，执行如下第一训练过程以训练所述对话模型：将所述至少一个第一样本数据对应的至少一个...

【专利技术属性】
技术研发人员：赵晏彬，丁思宇，王硕寰，孙宇，田浩，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人