当前位置: 首页 > 专利查询>南湖实验室专利>正文

用于检测对话策略学习中模拟用户经验质量的方法和系统技术方案

技术编号:28942070 阅读:10 留言:0更新日期:2021-06-18 21:48
本发明专利技术提供了一种用于检测对话策略学习中模拟用户经验质量的方法和系统,其方法包括以下步骤:S1.由世界模型生成模拟经验;S2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测;S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。本方案引入了基于KL散度的质量检测器,能够更轻松有效地评估模拟经验的质量,并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率,实现有效控制模拟经验质量的目的。

【技术实现步骤摘要】
用于检测对话策略学习中模拟用户经验质量的方法和系统
本专利技术属于机器学习
,尤其是涉及一种用于检测对话策略学习中模拟用户经验质量的方法和系统。
技术介绍
任务完成型对话策略学习旨在构建一个以完成任务为目标的对话系统,该系统可以通过几轮自然语言交互来帮助用户完成特定的单个任务或多域任务。它已广泛应用于聊天机器人和个人语音助手,例如苹果的Siri和微软的Cortana。近年来,强化学习逐渐成为了对话策略学习的主流方法。基于强化学习,对话系统可以通过与用户进行自然语言交互来逐步调整、优化策略,以提高性能。但是,原始强化学习方法在获得可用的对话策略之前需要进行大量人机对话交互,这不仅增加了训练成本,而且还恶化了早期训练阶段的用户体验。为了解决上述问题并加速对话策略的学习过程,研究者们在Dyna-Q框架的基础上,提出了DeepDyna-Q(DDQ)框架。DDQ框架引入了世界模型,为了使其与真实用户更相似,该模型使用真实用户经验进行训练,用以在动态环境中生成模拟用户经验,以下简称模拟经验。在对话策略的学习过程中,使用从实际交互中收集的真实经验和从与世界模型交互中收集的模拟经验共同训练对话智能体。借助引进世界模型,只需要使用少量的真实用户交互,可以显著提升对话策略的学习效率,然而,DDQ在进一步优化基于有限对话交互的对话策略学习方面,还面临着一些难题,例如,世界模型产生的模拟经验并不一定会改善性能,低质量的模拟经验甚至会对性能造成严重的负面影响。近来的一些研究为了解决这个问题,尝试使用生成式对抗网络(GAN)来区分低质量经验以控制模拟经验的质量。但是,对GAN进行训练存在极大的不稳定性问题,其在很大概率上会导致对话策略学习不收敛,并且对超参数的选择高度敏感,使对话学习性能受到严重制约。因此,如何有效筛去除对话策略学习过程中的低质量经验,这个问题仍有待解决,且十分重要。
技术实现思路
本专利技术的目的是针对上述问题,提供一种用于检测对话策略学习中模拟用户经验质量的方法及其系统。为达到上述目的,本专利技术采用了下列技术方案:一种用于检测对话策略学习中模拟用户经验质量的方法,包括以下步骤:S1.由世界模型生成模拟经验;S2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测;S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。在上述的用于检测对话策略学习中模拟用户经验质量的方法中,在步骤S2中,基于KL散度的质量检测器通过对比模拟经验与真实经验来进行模拟经验的质量检测。在上述的用于检测对话策略学习中模拟用户经验质量的方法中,在步骤S3中,将质量检测合格的模拟经验存储至缓冲器以用于对话策略模型训练。在上述的用于检测对话策略学习中模拟用户经验质量的方法中,在步骤S2中,根据世界模型生成的模拟经验更新词库world-dict,根据真实用户生成的真实经验更新词库real-dict,并通过KL散度衡量词库world-dict与词库real-dict的相似度以进行模拟经验的质量检测。在上述的用于检测对话策略学习中模拟用户经验质量的方法中,词库world-dict的主键为世界模型生成的用户动作,主键对应值为用户动作对应的频率;词库real-dict的主键为真实用户生成的用户动作,主键对应值为用户动作对应的频率。在上述的用于检测对话策略学习中模拟用户经验质量的方法中,在步骤S2中,通过事先定义的变量KLpre跟踪词库real-dict与词库world-dict之间的KL散度以进行相似度衡量。在上述的用于检测对话策略学习中模拟用户经验质量的方法中,在步骤S2中,词库real-dict与词库world-dict的交集主键在两个词库中的频率值被存储在事先建立的词库same-dict中,并基于词库same-dict计算当前的KL散度,若当前KL散度小于或等于KLpre,则判断当前经验为合格经验。在上述的用于检测对话策略学习中模拟用户经验质量的方法中,在步骤S2中,当词库same-dict的长度小于常量C时判断当前经验为合格经验。一种用于检测对话策略学习中模拟用户经验质量的系统,包括连接于世界模型、真实用户经验库和对话策略模型的质量检测器,且所述的质量检测器包括KL散度检测器,KL散度检测器用于根据真实用户生成的真实经验检测世界模型生成的模拟经验的质量。在上述的用于检测对话策略学习中模拟用户经验质量的系统中,所述的质量检测器包括用于存储真实经验的词库real-dict,用于存储模拟经验的词库world-dict和用于保存词库real-dict与词库world-dict的交集主键在两个词库中的频率值的词库same-dict。本专利技术的优点在于:通过引入KL散度来检查经验的分布,不需要额外工作来设计和训练复杂的质量检测器,从而更轻松的评估模拟经验的质量,并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率,能够有效控制模拟经验质量。附图说明图1为本专利技术对话学习方法的架构图;图2为本专利技术对话学习方法中KL散度计算流程图;图3为各类智能体在不同K参数下的学习曲线图,其中,(a)为各类智能体在K=20时的学习曲线图;(b)为各类智能体在K=30时的学习曲线图。具体实施方式下面结合附图和具体实施方式对本专利技术做进一步详细的说明。实施例一如图1所示,本方案提出一种用于检测对话策略学习中模拟用户经验质量的方法,其基本方法与现有技术一致,如使用人类会话数据来初始化对话策略模型和世界模型,并依此来启动对话策略学习。对话策略模型的对话策略学习主要包括直接强化学习和间接强化学习(也叫规划)两部分。直接强化学习,采用DeepQ-Network(DQN)根据真实经验改进对话策略,对话策略模型与用户User交互,在每一步中,对话策略模型根据观察到的对话状态s,通过最大化价值函数Q,选择要执行的动作a。然后,对话策略模型接收奖励r,真实用户的动作aru,并更新当前状态到s’,然后将真实经验(s,a,r,aru,t)存储至真实用户经验库,t用于指示对话是否终止。最大化价值函数Q(s,a;θQ)由DNN(深度神经网络)近似而成,通过优化θQ不断迭代更新,以减少均方损失。间接强化学习期间,对话策略模型通过与世界模型进行交互来改善其对话策略,以减少训练成本,规划的频率由参数K控制,这意味着计划在直接强化学习的每一步中执行K步。当世界模型能够准确捕获真实环境的特征时,K的值往往会很大。在规划的每个步骤中,世界模型都会根据当前状态s来响应动作awu,在规划过程中生成模拟经验(s,a,r,awu,t’)。特别地,本方案在上述现有技术的基础上,采用了基于KL散度(KLdivergence)的质量检测器对世界模型生成的模拟经验进行质量检测,并将质量检测合格的模拟经验保存至缓冲器以用于对话策略模型训练,从而保证模拟经验的质量,避免低质量模拟经验影响学习性能本文档来自技高网
...

【技术保护点】
1.一种用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,包括以下步骤:/nS1.由世界模型生成模拟经验;/nS2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测;/nS3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。/n

【技术特征摘要】
1.一种用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,包括以下步骤:
S1.由世界模型生成模拟经验;
S2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测;
S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。


2.根据权利要求1所述的用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,在步骤S2中,基于KL散度的质量检测器通过对比模拟经验与真实经验来进行模拟经验的质量检测。


3.根据权利要求2所述的用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,在步骤S3中,将质量检测合格的模拟经验存储至缓冲器以用于对话策略模型训练。


4.根据权利要求2所述的用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,在步骤S2中,根据世界模型生成的模拟经验更新词库world-dict,根据真实用户生成的真实经验更新词库real-dict,并通过KL散度衡量词库world-dict与词库real-dict的相似度以进行模拟经验的质量检测。


5.根据权利要求4所述的用于检测对话策略学习中模拟用户经验质量的方法,其特征在于,词库world-dict的主键为世界模型生成的用户动作,主键对应值为用户动作对应的频率;
词库real-dict的主键为真实用户生成的用户动作,主键对应值为用户动作对应的频率。


6.根据权利要求5所述的用于...

【专利技术属性】
技术研发人员:曹江吴冠霖方文其平洋栾绍童闫顼
申请(专利权)人:南湖实验室
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1