对话模型训练方法、回复信息生成方法、装置及介质制造方法及图纸

技术编号:39050819 阅读:12 留言:0更新日期:2023-10-12 19:43
本公开提供了一种对话模型训练方法、回复信息生成方法、装置及介质,涉及人工智能技术领域,尤其涉及自然语言处理、智能对话技术领域。实现方案为:获取第一样本数据集;将至少一个第一样本数据对应的至少一个第一问题文本分别输入对话模型,以获得至少一个第一回复预测结果;将每个第二问题文本输入对话模型,以获得对话模型输出的第二回复预测结果;以及将第二回复预测结果输入奖励模型中,以获得奖励模型输出的第二回复预测结果的得分;基于至少一个第一回复预测结果、至少一个第一样本数据中的每个的第一回复文本以及至少一个第二样本数据中的每个对应的得分,确定综合损失;以及基于综合损失,调整对话模型的至少一个参数。数。数。

【技术实现步骤摘要】
对话模型训练方法、回复信息生成方法、装置及介质


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、智能对话
,具体涉及一种对话模型的训练方法、基于对话模型实现的回复信息生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]基于超大规模语言模型的任务式对话生成技术是当前人工智能领域的研究热点之一。这种技术利用大规模语言模型的自然语言生成能力,结合任务式对话的特定需求,可以生成符合特定任务要求的对话内容。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种对话模型的训练方法、基于对话模型实现的回复信息生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种对话模型的训练方法,包括:获取第一样本数据集,第一样本数据集包括至少一个第一样本数据和至少一个第二样本数据,至少一个第一样本数据中的每个包括第一问题文本和第一回复文本,至少一个第二样本数据中的每个包括第二问题文本;利用第一样本数据集,执行如下第一训练过程以训练对话模型:将至少一个第一样本数据对应的至少一个第一问题文本分别输入对话模型,以获得对话模型输出的相应的至少一个第一回复预测结果;针对至少一个第二样本数据中的每个的第二问题文本,执行下述操作:将该第二问题文本输入对话模型,以获得对话模型输出的第二回复预测结果;以及将第二回复预测结果输入奖励模型中,以获得奖励模型输出的第二回复预测结果的得分,奖励模型基于至少一个样本问题、至少一个样本问题中的每个对应的多个回复文本以及多个回复文本中每个的标签训练获得,标签指示相应回复文本的用户满意度;基于至少一个第一回复预测结果、至少一个第一样本数据中的每个的第一回复文本以及至少一个第二样本数据中的每个对应的得分,确定综合损失;以及基于综合损失,调整对话模型的至少一个参数。
[0007]根据本公开的另一方面,提供了一种基于对话模型实现的回复信息生成方法,包括:获取用户的问题文本;将问题文本输入对话模型中,以获得对话模型生成的回复文本,
其中,对话模型根据上述对话模型的训练方法训练得到。
[0008]根据本公开的另一方面,提供了一种对话模型的训练装置,包括:第一获取单元,被配置为获取第一样本数据集,第一样本数据集包括至少一个第一样本数据和至少一个第二样本数据,至少一个第一样本数据中的每个包括第一问题文本和第一回复文本,至少一个第二样本数据中的每个包括第二问题文本;第一训练单元,被配置为利用第一样本数据集,执行如下第一训练过程以训练对话模型:将至少一个第一样本数据对应的至少一个第一问题文本分别输入对话模型,以获得对话模型输出的相应的至少一个第一回复预测结果;针对至少一个第二样本数据中的每个的第二问题文本,执行下述操作:将该第二问题文本输入对话模型,以获得对话模型输出的第二回复预测结果;以及将第二回复预测结果输入奖励模型中,以获得奖励模型输出的第二回复预测结果的得分,奖励模型基于至少一个样本问题、至少一个样本问题中的每个对应的多个回复文本以及多个回复文本中每个的标签训练获得,标签指示相应回复文本的用户满意度;基于至少一个第一回复预测结果、至少一个第一样本数据中的每个的第一回复文本以及至少一个第二样本数据中的每个对应的得分,确定综合损失;以及基于综合损失,调整对话模型的至少一个参数。
[0009]根据本公开的另一方面,提供了一种基于对话模型实现的回复信息生成装置,包括:获取单元,被配置为获取用户的问题文本;生成单元,被配置为将问题文本输入对话模型中,以获得对话模型生成的回复文本,其中,对话模型根据上述对话模型的训练方法训练得到。
[0010]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述对话模型的训练方法或基于对话模型实现的回复信息生成方法。
[0011]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述对话模型的训练方法或基于对话模型实现的回复信息生成方法。
[0012]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述对话模型的训练方法或基于对话模型实现的回复信息生成方法。
[0013]根据本公开的一个或多个实施例,能够通过在对话模型的基于人工反馈的强化学习训练阶段,引入有监督微调训练的损失,使得强化学习阶段中不会遗忘有监督微调训练过程中学到的解决对话任务的能力,提升对话模型的事实准确性以及用户意图理解能力,从而能够整体上提升对话模型的回复信息生成效果。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0016]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0017]图2示出了根据本公开的实施例的对话模型的训练方法的流程图;
[0018]图3示出了根据本公开的实施例的确定综合损失的流程图;
[0019]图4示出了根据本公开的实施例的确定第二损失的流程图;
[0020]图5示出了根据本公开的示例性实施例的对话模型训练方法的流程框图;
[0021]图6示出了根据本公开的实施例的基于对话模型实现的回复信息生成方法的流程图;
[0022]图7示出了根据本公开的实施例的对话模型的训练装置的结构框图;
[0023]图8示出了根据本公开的实施例的基于对话模型实现的回复信息生成装置的结构框图;
[0024]图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话模型的训练方法,包括:获取第一样本数据集,所述第一样本数据集包括至少一个第一样本数据和至少一个第二样本数据,所述至少一个第一样本数据中的每个包括第一问题文本和第一回复文本,所述至少一个第二样本数据中的每个包括第二问题文本;利用所述第一样本数据集,执行如下第一训练过程以训练所述对话模型:将所述至少一个第一样本数据对应的至少一个第一问题文本分别输入所述对话模型,以获得所述对话模型输出的相应的至少一个第一回复预测结果;针对所述至少一个第二样本数据中的每个的第二问题文本,执行下述操作:将该第二问题文本输入所述对话模型,以获得所述对话模型输出的第二回复预测结果;以及将所述第二回复预测结果输入奖励模型中,以获得所述奖励模型输出的所述第二回复预测结果的得分,所述奖励模型基于至少一个样本问题、所述至少一个样本问题中的每个对应的多个回复文本以及所述多个回复文本中每个的标签训练获得,所述标签指示相应回复文本的用户满意度;基于所述至少一个第一回复预测结果、所述至少一个第一样本数据中的每个的第一回复文本以及所述至少一个第二样本数据中的每个对应的得分,确定综合损失;以及基于所述综合损失,调整所述对话模型的至少一个参数。2.根据权利要求1所述的方法,其中,所述基于所述至少一个第一回复预测结果、所述至少一个第一样本数据中的每个的第一回复文本以及所述至少一个第二样本数据中的每个对应的得分,确定综合损失包括:基于所述至少一个第一样本数据中的每个的第一回复文本以及对应的第一回复预测结果,确定第一损失;基于所述至少一个第二样本数据对应的至少一个得分,确定第二损失;以及基于所述第一损失和所述第二损失,确定所述综合损失。3.根据权利要求2所述的方法,其中,所述基于所述至少一个第二样本数据对应的至少一个得分,确定第二损失包括:基于所述至少一个得分,确定所述至少一个得分的均值和方差;针对所述至少一个得分中的每个得分,基于所述均值和所述方差对该得分进行归一化,以获得更新后的得分;以及基于至少一个更新后的得分,确定所述第二损失。4.根据权利要求2或3所述的方法,其中,所述基于所述第一损失和所述第二损失,确定所述综合损失包括:基于所述第一损失对应的第一预设权重和所述第二损失对应的第二预设权重,对所述第一损失和所述第二损失进行加权,以获得所述综合损失。5.根据权利要求2至4中任一项所述的方法,还包括:获取预训练语言模型和第二样本数据集,所述第二样本数据集包括至少一个第三样本数据,所述至少一个第三样本数据中的每个包括第三问题文本和第三回复文本,所述预训练语言模型基于预设数量的无监督样本语料训练获得;以及在利用所述第一样本数据集训练所述对话模型之前,基于所述第二样本数据集中的每
个第三样本数据重复执行下述针对所述预训练语言模型的训练操作直至所述预训练语言模型收敛,以获得初始对话模型:将该第三样本数据对应的第三问题文本输入所述预训练语言模型,以获得所述预训练语言模型输出的第三回复预测结果;以及基于所述第三回复预测结果以及该第三样本数据对应的第三回复文本,调整所述预训练语言模型的参数,以更新所述预训练语言模型。6.根据权利要求5所述的方法,其中,所述对话模型是在所述初始对话模型的基础上经过至少一次所述第一训练过程获得的,所述方法还包括:将该第二问题文本输入所述初始对话模型,以获得所述初始对话模型输出的第四回复预测结果;并且其中,所述基于所述至少一个第二样本数据对应的至少一个得分,确定第二损失包括:基于所述至少一个得分、所述至少一个第二样本数据中的每个对应的第二问题文本、第二回复预测结果和第四回复预测结果,确定所述第二损失。7.根据权利要求1至6中任一项所述的方法,其中,所述至少一个第一样本数据的第一数量和所述至少一个第二样本数据的第二数量均为多个,并且所述第一数量和所述第二数量符合预设比例。8.一种基于对话模型实现的回复信息生成方法,包括:获取用户的问题文本;将所述问题文本输入所述对话模型中,以获得所述对话模型生成的回复文本,其中,所述对话模型根据权利要求1

7中任一项所述的训练方法训练得到。9.一种对话模型的训练装置,包括:第一获取单元,被配置为获取第一样本数据集,所述第一样本数据集包括至少一个第一样本数据和至少一个第二样本数据,所述至少一个第一样本数据中的每个包括第一问题文本和第一回复文本,所述至少一个第二样本数据中的每个包括第二问题文本;第一训练单元,被配置为利用所述第一样本数据集,执行如下第一训练过程以训练所述对话模型:将所述至少一个第一样本数据对应的至少一个...

【专利技术属性】
技术研发人员:赵晏彬丁思宇王硕寰孙宇田浩吴华王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1