System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 答复生成模型的训练方法、答复语句生成方法和装置制造方法及图纸_技高网

答复生成模型的训练方法、答复语句生成方法和装置制造方法及图纸

技术编号:40074906 阅读:6 留言:0更新日期:2024-01-17 00:57
本公开提出了一种答复生成模型的训练方法、答复语句生成方法和装置,涉及自然语言处理和深度学习等人工智能领域,包括获取待训练的候选答复生成模型的第一训练样本以及第一训练样本中的样本对话上文、样本事实和参考事实标签;识别样本事实与参考事实标签是否匹配并根据识别结果确定候选答复生成模型的当前轮次的模型训练任务;获取候选答复生成模型在模型训练任务下的训练损失;根据训练损失对候选答复生成模型进行参数调整并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束得到目标答复生成模型。降低了模型生成的答复信息与事实信息的不一致所导致的机器错误答复的可能程度,提高了答复信息的准确率。

【技术实现步骤摘要】

本公开涉及数据处理领域,尤其涉及自然语言处理和深度学习等人工智能领域。


技术介绍

1、随着技术的发展,用户端可以通过与机器的对话得到想要查询的信息,其中,用户端可以在机器的输入端输入其需求信息,机器通过用户输入的需求信息生成对应的答复信息并返回至用户端。

2、相关技术中,可以通过模板式答复的方法生成返回给用户的答复信息,在该场景下,模板式答复虽然可以为用户提供对应的答复信息,但是模板式回复灵活度较低,用户体验感欠佳,且需要进行模板的预配置,工作量较大。

3、可选地,还可以通过答复生成模型为用户生成对应的答复信息,在该场景下,模型输出的答复语句存在可能出现与事实不一致的情况发生,用户体验感欠佳。


技术实现思路

1、本公开提出了一种答复生成模型的训练方法、答复语句生成方法和装置

2、根据本公开的第一方面,提出了一种答复生成模型的训练方法,方法包括:获取待训练的候选答复生成模型的第一训练样本,以及所述第一训练样本中的样本对话上文、样本事实和参考事实标签;识别所述样本事实与所述参考事实标签是否匹配,并根据识别结果确定所述候选答复生成模型的当前轮次的模型训练任务,其中,所述模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个;获取所述候选答复生成模型在所述模型训练任务下的训练损失;根据所述训练损失对所述候选答复生成模型进行参数调整,并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束,得到训练好的目标答复生成模型。

3、根据本公开的第二方面,提出了一种答复语句生成方法,方法包括:获取用户端输入的对话上文,并获取所述对话上文对应的事实信息;获取训练好的目标答复生成模型,并将所述对话上文和所述事实信息输入所述目标答复生成模型中,通过所述目标答复生成模型生成所述对话上文的目标答复语句,其中,所述目标答复生成模型基于上述第一方面提出的答复生成模型的训练方法得到。

4、根据本公开的第三方面,提出了一种答复生成模型的训练方法,方法包括:第一获取模块,用于获取待训练的候选答复生成模型的第一训练样本,以及所述第一训练样本中的样本对话上文、样本事实和参考事实标签;识别模块,用于识别所述样本事实与所述参考事实标签是否匹配,并根据识别结果确定所述候选答复生成模型的当前轮次的模型训练任务,其中,所述模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个;第二获取模块,用于获取所述候选答复生成模型在所述模型训练任务下的训练损失;训练模块,用于根据所述训练损失对所述候选答复生成模型进行参数调整,并返回获取下一样本对话上文对参数调整后的候选答复生成模型继续进行训练,直至训练结束,得到训练好的目标答复生成模型。

5、根据本公开的第四方面,提出了一种答复语句生成装置,装置包括:第三获取模块,用于获取用户端输入的对话上文,并获取所述对话上文对应的事实信息;生成模块,用于获取训练好的目标答复生成模型,并将所述对话上文和所述事实信息输入所述目标答复生成模型中,通过所述目标答复生成模型生成所述对话上文的目标答复语句,其中,所述目标答复生成模型基于上述第三方面提出的答复生成模型的训练装置得到。

6、根据本公开的第五方面,提出了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面提出的答复生成模型的训练方法和/或第二方面提出的答复语句生成方法。

7、根据本公开的第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述第一方面提出的答复生成模型的训练方法和/或第二方面提出的答复语句生成方法。

8、根据本公开的第五方面,提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述第一方面提出的答复生成模型的训练方法和/或第二方面提出的答复语句生成方法。

9、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种答复生成模型的训练方法,其中,所述方法包括:

2.根据权利要求1所述的方法,其中,所述识别所述样本事实与所述参考事实标签是否匹配,并根据识别结果确定所述候选答复生成模型的当前轮次的模型训练任务,其中,所述模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个,包括:

3.根据权利要求1所述的方法,其中,所述获取所述候选答复生成模型在所述模型训练任务下的训练损失,包括:

4.根据权利要求1所述的方法,其中,所述获取所述候选答复生成模型在所述模型训练任务下的训练损失,包括:

5.根据权利要求3或4所述的方法,其中,所述获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第一输出答复,和/或,所述获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第二输出答复,包括:

6.根据权利要求1所述的方法,其中,所述获取待训练的候选答复生成模型的第一训练样本,以及所述第一训练样本中的样本对话上文、样本事实和参考事实标签之前,包括:

7.一种答复语句生成方法,其特征在于,所述方法包括:

8.一种答复生成模型的训练装置,其中,所述装置包括:

9.根据权利要求8所述的装置,其中,所述识别模块,还用于:

10.根据权利要求8所述的装置,其中,所述第二获取模块,还用于:

11.根据权利要求8所述的装置,其中,所述第二获取模块,还用于:

12.根据权利要求10或11所述的装置,其中,所述第二获取模块,还用于:

13.根据权利要求8所述的装置,其中,所述第一获取模块,还用于:

14.一种答复语句生成装置,其特征在于,所述装置包括:

15.一种电子设备,包括:

16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6和/或权利要求7中任一项所述的方法。

17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6和/或权利要求7中任一项所述的方法。

...

【技术特征摘要】

1.一种答复生成模型的训练方法,其中,所述方法包括:

2.根据权利要求1所述的方法,其中,所述识别所述样本事实与所述参考事实标签是否匹配,并根据识别结果确定所述候选答复生成模型的当前轮次的模型训练任务,其中,所述模型训练任务为事实答复一致性分类任务和答复生成学习任务中的至少一个,包括:

3.根据权利要求1所述的方法,其中,所述获取所述候选答复生成模型在所述模型训练任务下的训练损失,包括:

4.根据权利要求1所述的方法,其中,所述获取所述候选答复生成模型在所述模型训练任务下的训练损失,包括:

5.根据权利要求3或4所述的方法,其中,所述获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第一输出答复,和/或,所述获取所述候选答复生成模型基于所述样本对话上文和所述样本事实生成的第二输出答复,包括:

6.根据权利要求1所述的方法,其中,所述获取待训练的候选答复生成模型的第一训练样本,以及所述第一训练样本中的样本对话上文、样本事实和参考事实标签之前,包括:

【专利技术属性】
技术研发人员:焦振宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1