【技术实现步骤摘要】
一种对话策略模型训练、对话的方法和系统
本说明书涉及信息
,特别涉及一种对话策略模型训练、对话的方法和系统。
技术介绍
人与智能设备(例如,智能机器人)进行聊天对话是智能时代一种重要的互动方式。对于智能设备来说,如何响应人们的对话对整个聊天体验的影响至关重要。通常多轮对话交互过程中,智能设备需要遵循一定的话术约束和流程约束来完成对话,目前所使用的话术和流程都是由人工制定,而人工制定的方式费时费力,效率低。因此,有必要提出一种对话策略模型训练方法,以使得智能设备可以更好的完成对话任务。
技术实现思路
本说明书实施例的一个方面提供一种对话策略模型训练方法。所述对话策略模型训练方法包括:基于多轮历史对话,确定第一训练数据以及第二训练数据;其中,所述第一训练数据中的第一训练样本包括样本对话上文和样本对话策略;第二训练数据中的第二训练样本至少包括样本对话上文、样本对话策略以及相应的目标奖励值;使用第一训练数据对对话策略模型进行第一阶段训练,使得所述对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得所述对话策略模型的第一模型参数;使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型参数,使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得所述对话策略模型的第二模型参数。本说明书实施例的另一个方面提供一种对话策略模型训练系统。所述系统包括:第一确定模块,可以用于基于多轮历史对话,确定第一训练数据以及第二训练数据;其 ...
【技术保护点】
1.一种对话策略模型训练方法,所述方法包括:/n基于多轮历史对话,确定第一训练数据以及第二训练数据;其中,所述第一训练数据中的第一训练样本包括样本对话上文和样本对话策略;所述第二训练数据中的第二训练样本至少包括样本对话上文、样本对话策略以及相应的目标奖励值;/n使用所述第一训练数据对对话策略模型进行第一阶段训练,使得所述对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得所述对话策略模型的第一模型参数;/n使用所述第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型参数,使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得所述对话策略模型的第二模型参数。/n
【技术特征摘要】
1.一种对话策略模型训练方法,所述方法包括:
基于多轮历史对话,确定第一训练数据以及第二训练数据;其中,所述第一训练数据中的第一训练样本包括样本对话上文和样本对话策略;所述第二训练数据中的第二训练样本至少包括样本对话上文、样本对话策略以及相应的目标奖励值;
使用所述第一训练数据对对话策略模型进行第一阶段训练,使得所述对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得所述对话策略模型的第一模型参数;
使用所述第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型参数,使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得所述对话策略模型的第二模型参数。
2.根据权利要求1所述的方法,所述对话策略模型为多分类模型,其输入包括对话上文,输出包括对应于两个或以上对话策略的概率值。
3.根据权利要求1所述的方法,所述第一训练数据包括第一训练正样本和第一训练负样本;其中,所述第一训练正样本中的样本对话策略为历史对话中对应于该样本中的样本对话上文的对话策略;所述第一训练负样本中的样本对话策略为非历史对话中对应于该样本中的样本对话上文的对话策略。
4.根据权利要求3所述的方法,基于多轮历史对话,确定第一训练数据,包括:
从多轮历史对话中提取客服话术,并将提取得到的客服话术聚类为一组或多组;
基于聚类得到的一组或多组客服话术,确定一个或多个对话策略;
将所述多轮历史对话中的客服话术替换为对应的对话策略;
将客服话术替换为对话策略后的多轮历史对话按轮进行拆分,得到多个第一训练正样本。
5.根据权利要求1所述的方法,第二训练样本中的样本对话策略为历史对话中对应于该样本中的样本对话上文的对话策略,所述第二训练样本还包括历史对话中对应于该样本中的样本对话上文的下一轮样本对话上文以及下一轮样本对话策略。
6.根据权利要求5所述的方法,基于多轮历史对话,确定第二训练数据,包括:
从多轮历史对话中提取客服话术,并将提取得到的客服话术聚类为一组或多组;
基于聚类得到的一组或多组客服话术,确定一个或多个对话策略;
将所述多轮历史对话中的客服话术替换为对应的对话策略;
将客服话术替换为对话策略后的多轮历史对话按轮进行拆分;
从拆分后的多轮历史对话中获取对话上文、其对应的对话策略、其对应的下一轮对话上文以及该下一轮对话上文对应的对话策略,分别作为第二训练样本中的样本对话上文、样本对话策略、下一轮样本对话上文以及下一轮样本对话策略。
7.根据权利要求5所述的方法,所述使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型...
【专利技术属性】
技术研发人员:王福东,王子豪,金春祥,李向阳,彭爽,杨明晖,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。