当前位置: 首页 > 专利查询>南湖实验室专利>正文

用于生成对话策略学习用高质量模拟经验的方法技术

技术编号:28942071 阅读:11 留言:0更新日期:2021-06-18 21:48
本发明专利技术提供了一种用于生成对话策略学习用高质量模拟经验的方法,属于机器学习技术领域,包括以下步骤:S1.由基于GP的世界模型预测产生模拟经验;S2.将模拟经验存储至缓冲器以用于对话策略模型训练。本方案基于高斯过程的世界模型能够避免传统DNN模型生成的模拟经验质量需要依赖训练数据量的问题,能够生成高质量的模拟经验,以补充有限的实际用户经验,有效避免初始阶段因为真实经验较少而导致学习效果不佳,学习效率低等问题。

【技术实现步骤摘要】
用于生成对话策略学习用高质量模拟经验的方法
本专利技术属于机器学习
,尤其是涉及一种用于生成对话策略学习用高质量模拟经验的方法。
技术介绍
任务完成型对话策略学习旨在构建一个以完成任务为目标的对话系统,该系统可以通过几轮自然语言交互来帮助用户完成特定的单个任务或多域任务。它已广泛应用于聊天机器人和个人语音助手,例如苹果的Siri和微软的Cortana。近年来,强化学习逐渐成为了对话策略学习的主流方法。基于强化学习,对话系统可以通过与用户进行自然语言交互来逐步调整、优化策略,以提高性能。但是,原始强化学习方法在获得可用的对话策略之前需要进行大量人机对话交互,这不仅增加了训练成本,而且还恶化了早期训练阶段的用户体验。为了解决上述问题并加速对话策略的学习过程,研究者们在Dyna-Q框架的基础上,提出了DeepDyna-Q(DDQ)框架。DDQ框架引入了世界模型,为了使其与真实用户更相似,该模型使用真实用户经验进行训练,用以在动态环境中生成模拟经验。在对话策略学习过程中,使用从实际交互中收集的真实经验和从与世界模型交互中收集的模拟经验共同训练对话智能体。借助引进世界模型,只需要使用少量的真实用户交互,能够显著提升对话策略的学习效率,然而,DDQ在进一步优化基于有限对话交互的对话策略学习方面还面临着一些难题,例如DDQ中的世界模型被构建为深度神经网络(DNN),其性能在很大程度上取决于训练所用的数据量。在真实经验相对较少的初始训练阶段,DNN对数据的高度依赖问题可能会使世界模型生成低质量的模拟经验,若要该模型生成高质量的模拟经验,则需要大量的真实经验。也就是说,由DNN等数据需求量大的模型实现的世界模型将削弱Dyna-Q框架带来的优势,并使得DDQ在现实中的效率很低。
技术实现思路
本专利技术的目的是针对上述问题,提供一种用于生成对话策略学习用高质量模拟经验的方法。为达到上述目的,本专利技术采用了下列技术方案:一种用于生成对话策略学习用高质量模拟经验的方法,包括以下步骤:S1.由基于GP的世界模型预测产生模拟经验;S2.将模拟经验存储至缓冲器以用于对话策略模型训练。在上述的用于生成对话策略学习用高质量模拟经验的方法中,在步骤步骤S2之前,先由质量检测器对所述模拟经验进行质量检测,且在步骤S2中将质量检测合格的模拟经验存储至缓冲器。在上述的用于生成对话策略学习用高质量模拟经验的方法中,基于GP的世界模型包括多个GP模型,且所述的世界模型由W(s,a;θw)表示,s为当前对话状态,a为最后一个响应动作,θw表示各个GP模型的参数。在上述的用于生成对话策略学习用高质量模拟经验的方法中,在步骤S1中,通过多个GP模型预测生成至少一组模拟经验,且每组模拟经验包括响应动作au、奖励r和变量t。在上述的用于生成对话策略学习用高质量模拟经验的方法中,所述的世界模型包括三个GP模型,且三个GP模型分别用于生成响应动作au、奖励r和变量t。在上述的用于生成对话策略学习用高质量模拟经验的方法中,在步骤S1的模拟经验预测阶段通过三个GP模型生成元模拟经验ei=(aui,ri,ti)。在上述的用于生成对话策略学习用高质量模拟经验的方法中,获取元模拟经验中响应动作aui、奖励ri和变量ti的50%置信区间,并依此得到上限模拟经验el=(aul,rl,tl)和下限模拟经验eb=(aub,rb,tb)。在上述的用于生成对话策略学习用高质量模拟经验的方法中,在步骤S1中,当预测的响应动作au不是整数时,将au近似到最接近的整数;当预测的响应动作au超出了定义的动作域时,直接选取动作域的上限或下限。在上述的用于生成对话策略学习用高质量模拟经验的方法中,所述GP模型的模型如下:其中,表示均值;为核函数;为高斯噪声,为方差,为单位矩阵。在上述的用于生成对话策略学习用高质量模拟经验的方法中,所述的核函数采用如下形式:其中,和分别是幅度和长度标度参数;是伽马函数;是第二类型的修正贝塞尔函数;是协方差的正参数;表示观测目标值之间的距离。本专利技术的优点在于:基于高斯过程的世界模型能够避免传统DNN模型生成的模拟经验质量需要依赖训练数据量的问题,能够生成高质量的模拟经验,以补充有限的实际用户经验,避免初始阶段因为真实经验较少而导致学习效果不佳,学习效率低等问题。附图说明图1为本专利技术实施例一中对话学习方法的架构图;图2为本专利技术实施例一中对话学习方法中世界模型的训练阶段流程图;图3为本专利技术实施例一中对话学习方法中世界模型的预判阶段流程图;图4为本专利技术实施例二中对话学习方法中KL散度计算流程图;图5为DDQ和GPDDQ在不同参数设定下的学习曲线,其中,(a)为DDQ在M=5000;N=16;K=0,2,5,10,20时的学习曲线;(b)为GPDDQ在M=5000;N=16;K=0,2,5,10,20时的学习曲线;(c)为DDQ在M=5000;N=4;K=0,2,5,10,20时的学习曲线;(d)为GPDDQ在M=5000;N=4;K=0,2,5,10,20时的学习曲线;图6为DDQ/DQN和GPDDQ/GPDQN在M=5000,K=10,N=16时的学习曲线,其中,(a)为DDQ/DQN的学习曲线;(b)为GPDDQ/GPDQN的学习曲线;图7为DDQ和KL-GPDDQ在不同参数设定下的学习曲线,其中,(a)为DDQ在M=5000,3500,2000,1000;K=20;N=4时的学习曲线;(b)为KL-GPDDQ在M=5000,3500,2000,1000;K=20;N=4时的学习曲线;(c)为DDQ在M=5000,3500,2000,1000;K=30;N=4时的学习曲线;;(d)为KL-GPDDQ在M=5000,3500,2000,1000;K=30;N=4时的学习曲线;图8为D3Q,DDQ,GPDDQ,UN-GPDDQ,KL-GPDDQ在不同参数设定下的学习曲线,其中,(a)为M=5000,K=20,N=4时的学习曲线;(b)为M=5000,K=30,N=4时的学习曲线;图9是本专利技术实施例二中对话学习方法的架构图。具体实施方式下面结合附图和具体实施方式对本专利技术做进一步详细的说明。实施例一如图1所示,本方案提出一种用于对话策略学习的基于GP的深度Dyna-Q方法,其基本方法与现有技术一致,如使用人类会话数据来初始化对话策略模型和世界模型,并依此来启动对话策略学习。对话策略模型的对话策略学习主要包括直接强化学习和间接强化学习(也叫规划)两部分。直接强化学习,采用DeepQ-Network(DQN)根据真实经验改进对话策略,对话本文档来自技高网
...

【技术保护点】
1.一种用于生成对话策略学习用高质量模拟经验的方法,其特征在于,包括以下步骤:/nS1.由基于GP的世界模型预测产生模拟经验;/nS2.将模拟经验存储至缓冲器以用于对话策略模型训练。/n

【技术特征摘要】
1.一种用于生成对话策略学习用高质量模拟经验的方法,其特征在于,包括以下步骤:
S1.由基于GP的世界模型预测产生模拟经验;
S2.将模拟经验存储至缓冲器以用于对话策略模型训练。


2.根据权利要求1所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,在步骤S2之前,先由质量检测器对所述模拟经验进行质量检测,且在步骤S2中将质量检测合格的模拟经验存储至缓冲器。


3.根据权利要求1或2所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,基于GP的世界模型包括多个GP模型,且所述的世界模型由W(s,a;θw)表示,s为当前对话状态,a为最后一个响应动作,θw表示各个GP模型的参数。


4.根据权利要求3所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,在步骤S1中,通过多个GP模型预测生成至少一组模拟经验组,且每组模拟经验组包括响应动作au、奖励r和变量t。


5.根据权利要求4所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,所述的世界模型包括三个GP模型,且三个GP模型分别用于生成响应动作au、奖励r和变量t。


6.根据权利要求5所述的用于生成对话策略学习用高质量模拟经验的方法,其特征在于,在步骤S1的模拟经验...

【专利技术属性】
技术研发人员:平洋曹江方文其吴冠霖栾绍童闫顼
申请(专利权)人:南湖实验室
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1