一种对话策略模型训练、对话的方法和系统技术方案

技术编号:28978688 阅读:16 留言:0更新日期:2021-06-23 09:24
本说明书实施例公开了一种对话策略模型训练、对话的方法和系统。其中,对话策略模型训练方法包括:基于多轮历史对话,确定第一训练数据以及第二训练数据;使用第一训练数据对对话策略模型进行第一阶段训练,使得对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得对话策略模型的第一模型参数;使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整第一模型参数,使得对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得对话策略模型的第二模型参数。

【技术实现步骤摘要】
一种对话策略模型训练、对话的方法和系统
本说明书涉及信息
,特别涉及一种对话策略模型训练、对话的方法和系统。
技术介绍
人与智能设备(例如,智能机器人)进行聊天对话是智能时代一种重要的互动方式。对于智能设备来说,如何响应人们的对话对整个聊天体验的影响至关重要。通常多轮对话交互过程中,智能设备需要遵循一定的话术约束和流程约束来完成对话,目前所使用的话术和流程都是由人工制定,而人工制定的方式费时费力,效率低。因此,有必要提出一种对话策略模型训练方法,以使得智能设备可以更好的完成对话任务。
技术实现思路
本说明书实施例的一个方面提供一种对话策略模型训练方法。所述对话策略模型训练方法包括:基于多轮历史对话,确定第一训练数据以及第二训练数据;其中,所述第一训练数据中的第一训练样本包括样本对话上文和样本对话策略;第二训练数据中的第二训练样本至少包括样本对话上文、样本对话策略以及相应的目标奖励值;使用第一训练数据对对话策略模型进行第一阶段训练,使得所述对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得所述对话策略模型的第一模型参数;使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型参数,使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得所述对话策略模型的第二模型参数。本说明书实施例的另一个方面提供一种对话策略模型训练系统。所述系统包括:第一确定模块,可以用于基于多轮历史对话,确定第一训练数据以及第二训练数据;其中,所述第一训练数据中的第一训练样本包括样本对话上文和样本对话策略;第二训练数据中的第二训练样本至少包括样本对话上文、样本对话策略以及相应的目标奖励值;第一训练模块,可以用于使用第一训练数据对对话策略模型进行第一阶段训练,使得所述对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得所述对话策略模型的第一模型参数;第二训练模块,可以用于使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型参数,使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得所述对话策略模型的第二模型参数。本说明书实施例的另一个方面提供一种对话的方法。所述方法包括:获取对话上文;将所述对话上文输入至对话策略模型,确定用于回答所述对话上文的对话策略;中,所述对话策略模型采用如上所述的方法训练得到;基于所述对话策略确定应答话术并输出。本说明书实施例的另一个方面提供一种对话的系统。所述系统包括:获取模块,可以用于获取对话上文;第二确定模块,可以用于将所述对话上文输入至对话策略模型,确定用于回答所述对话上文的对话策略;其中,所述对话策略模型采用如上所述的方法训练得到;第三确定模块,可以用于基于所述对话策略确定应答话术并输出。本说明书实施例的另一个方面提供一种对话策略模型训练装置包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现对话策略模型训练方法。本说明书实施例的另一个方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行对话策略模型训练方法。本说明书实施例的另一个方面提供一种对话的装置包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现对话的方法。本说明书实施例的另一个方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行对话的方法。附图说明本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的智能对话场景示意图;图2是根据本说明书一些实施例所示的对话策略模型训练方法的示例性流程图;图3是根据本说明书一些实施例所示的训练样本的获取方法的示例性流程图;图4是根据本说明书一些实施例所示的对话策略模型第二阶段训练方法的示例性示意图;图5是根据本说明书一些实施例所示的对话策略模型训练系统的示例性模块图;图6是根据本说明书一些实施例所示的对话的系统的示例性模块图;图7是根据本说明书一些实施例所示的对话策略模型的结构示意图。具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。人机对话目前广泛应用于各个领域,例如,电商领域、金融领域等。在不同领域中,人机对话有着不同的对话目标(例如,催债、推销、反欺诈等)。作为示例,在金融领域中,随着数字金融和电子支付行业的蓬勃发展,欺诈者通过线上平台对用户进行的金融欺诈也随之增多。例如,欺诈者冒充用户好友,通过线上社交平台诱导用户向欺诈者的银行账户转账。又例如,欺诈者在银行系统上通过手机号码登录用户的账户,骗取用户收到的手机验证码,从而操作用户的银行账户,盗取用户的资金。在一些实施例中,线上平台可以通过用户的操作识别出欺诈风险,并通过阻断用户操作来阻止用户被欺诈。例如,线上平台监测到用户当前的操作可能存在被欺诈时,线上平台可以对用户进行风险提示。例如,线上平台可以通过人机对话进行反欺诈干预。在人机对话的过程中,为了完成不同场景对应的业务目标(或称为对话目标),多轮对话交互过程中,智能设备要遵循一定的话术约束和流程约束。目前广泛使用的FST(有限状态自动机)技术,其包含的话术和流程都是由人工去制定的。具体的,需要根据业务知识人工去编写话术,并制定话术流转的路径,从而形成整体的话术流程。但是这种方式在实际应用中存在一些问题,例如,由人工制定话术流程随本文档来自技高网...

【技术保护点】
1.一种对话策略模型训练方法,所述方法包括:/n基于多轮历史对话,确定第一训练数据以及第二训练数据;其中,所述第一训练数据中的第一训练样本包括样本对话上文和样本对话策略;所述第二训练数据中的第二训练样本至少包括样本对话上文、样本对话策略以及相应的目标奖励值;/n使用所述第一训练数据对对话策略模型进行第一阶段训练,使得所述对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得所述对话策略模型的第一模型参数;/n使用所述第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型参数,使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得所述对话策略模型的第二模型参数。/n

【技术特征摘要】
1.一种对话策略模型训练方法,所述方法包括:
基于多轮历史对话,确定第一训练数据以及第二训练数据;其中,所述第一训练数据中的第一训练样本包括样本对话上文和样本对话策略;所述第二训练数据中的第二训练样本至少包括样本对话上文、样本对话策略以及相应的目标奖励值;
使用所述第一训练数据对对话策略模型进行第一阶段训练,使得所述对话策略模型能够基于对话上文输出与之对应的对话策略,进而获得所述对话策略模型的第一模型参数;
使用所述第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型参数,使得所述对话策略模型基于对话上文输出的对话策略能够与预设对话目标适配,进而获得所述对话策略模型的第二模型参数。


2.根据权利要求1所述的方法,所述对话策略模型为多分类模型,其输入包括对话上文,输出包括对应于两个或以上对话策略的概率值。


3.根据权利要求1所述的方法,所述第一训练数据包括第一训练正样本和第一训练负样本;其中,所述第一训练正样本中的样本对话策略为历史对话中对应于该样本中的样本对话上文的对话策略;所述第一训练负样本中的样本对话策略为非历史对话中对应于该样本中的样本对话上文的对话策略。


4.根据权利要求3所述的方法,基于多轮历史对话,确定第一训练数据,包括:
从多轮历史对话中提取客服话术,并将提取得到的客服话术聚类为一组或多组;
基于聚类得到的一组或多组客服话术,确定一个或多个对话策略;
将所述多轮历史对话中的客服话术替换为对应的对话策略;
将客服话术替换为对话策略后的多轮历史对话按轮进行拆分,得到多个第一训练正样本。


5.根据权利要求1所述的方法,第二训练样本中的样本对话策略为历史对话中对应于该样本中的样本对话上文的对话策略,所述第二训练样本还包括历史对话中对应于该样本中的样本对话上文的下一轮样本对话上文以及下一轮样本对话策略。


6.根据权利要求5所述的方法,基于多轮历史对话,确定第二训练数据,包括:
从多轮历史对话中提取客服话术,并将提取得到的客服话术聚类为一组或多组;
基于聚类得到的一组或多组客服话术,确定一个或多个对话策略;
将所述多轮历史对话中的客服话术替换为对应的对话策略;
将客服话术替换为对话策略后的多轮历史对话按轮进行拆分;
从拆分后的多轮历史对话中获取对话上文、其对应的对话策略、其对应的下一轮对话上文以及该下一轮对话上文对应的对话策略,分别作为第二训练样本中的样本对话上文、样本对话策略、下一轮样本对话上文以及下一轮样本对话策略。


7.根据权利要求5所述的方法,所述使用第二训练数据对经过第一阶段训练后的对话策略模型进行第二阶段训练,调整所述第一模型...

【专利技术属性】
技术研发人员:王福东王子豪金春祥李向阳彭爽杨明晖
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1