【技术实现步骤摘要】
对话模型的训练方法、装置、设备及介质
[0001]本公开涉及信息
,尤其涉及一种对话模型的训练方法、装置、设备及介质。
技术介绍
[0002]随着科技的不断发展,终端设备的功能越来越多样。例如,终端设备可以通过对话系统进行人机对话。具体的,用户在终端设备中输入问句后,终端设备通过对话系统向用户反馈系统回复。
[0003]通常情况下,可以采用样本数据例如人人日志或无标人人日志优化对话系统所采用的对话策略。
[0004]但是,本申请的专利技术人发现,直接采用无标人人日志优化对话策略可能会导致外推错误。
技术实现思路
[0005]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种对话模型的训练方法、装置、设备及介质,以避免外推错误的出现。
[0006]第一方面,本公开实施例提供一种对话模型的训练方法,所述对话模型至少包括:编码器、解码器、第一策略网络、第二策略网络、第一价值网络、第二价值网络;所述方法包括:
[0007]获得本轮对话数据,所述本轮对话数据包括上 ...
【技术保护点】
【技术特征摘要】
1.一种对话模型的训练方法,其特征在于,所述对话模型至少包括:编码器、解码器、第一策略网络、第二策略网络、第一价值网络、第二价值网络;所述方法包括:获得本轮对话数据,所述本轮对话数据包括上一轮的系统回复和本轮的用户语句;利用编码器对所述上一轮的系统回复和所述本轮的用户语句进行编码,得到连续的第一隐状态向量;将所述第一隐状态向量通过第一策略网络或第二策略网络,得到隐动作向量的第一概率分布;根据所述隐动作向量的第一概率分布,对第一价值网络进行优化,得到优化后的第一价值网络;根据优化后的第一价值网络对第一策略网络进行优化,得到优化后的第一策略网络;根据优化后的第一价值网络对第二价值网络进行优化,得到优化后的第二价值网络;根据优化后的第一策略网络对第二策略网络进行优化,得到优化后的第二策略网络。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述隐动作向量的第一概率分布通过所述解码器,得到本轮生成的系统回复。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取第一历史对话数据,所述第一历史对话数据包括第一历史语句和所述第一历史语句对应的历史回复语句;获取第二历史对话数据,所述第二历史对话数据包括第二历史语句和所述第二历史语句对应的历史回复语句,所述第二历史语句与所述第一历史语句的语义相似度大于或等于预设阈值;利用编码器对所述第二历史对话数据进行编码,得到连续的第二隐状态向量,将所述第二隐状态向量通过第二策略网络,得到所述隐动作向量的第二概率分布;利用编码器对所述第一历史对话数据进行编码,得到连续的第三隐状态向量,将所述第三隐状态向量通过第一策略网络,得到所述隐动作向量的第三概率分布;如果所述第二概率分布与所述第三概率分布之间的差异小于预设差异,获取第三历史对话数据,所述第三历史对话数据包括第三历史语句和所述第三历史语句对应的历史回复语句。4.根据权利要求3所述的方法,其特征在于,根据优化后的第一价值网络对第一策略网络进行优化,得到优化后的第一策略网络,包括:利用编码器对所述第三历史对话数据进行编码,得到连续的第四隐状态向量,将所述第四隐状态向量通过第一策略网络,得到所述隐动作向量的第四概率分布;根据所述第四隐状态向量、所述第四概率分布和优化后的第一价值网络对第一策略网络进行优化,得到优化后的第一策略网络。5.根据权利要求1所述的方法,其特征在于,根据所述隐动作向量的第一概率分布,对第一价值网络进行优化,包括:通过所述第二价值网络计算所述第一概率分布中的一个或多个隐动作向量分别对应的评价指标;根据所述评价指标和反馈函数,对所述第一价值网络进行优化,所述反馈函数包括对话完成率、以及本轮生成的系统回...
【专利技术属性】
技术研发人员:戴音培,黎航宇,唐呈光,李永彬,孙健,
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。