用于检测对话策略学习中模拟用户经验质量的方法和系统技术方案

技术编号：28942070 阅读：10 留言：0更新日期：2021-06-18 21:48

本发明专利技术提供了一种用于检测对话策略学习中模拟用户经验质量的方法和系统，其方法包括以下步骤：S1.由世界模型生成模拟经验；S2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测；S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。本方案引入了基于KL散度的质量检测器，能够更轻松有效地评估模拟经验的质量，并在确保对话策略的鲁棒性和有效性的同时大大提高计算效率，实现有效控制模拟经验质量的目的。

全部详细技术资料下载

【技术实现步骤摘要】
用于检测对话策略学习中模拟用户经验质量的方法和系统
本专利技术属于机器学习
，尤其是涉及一种用于检测对话策略学习中模拟用户经验质量的方法和系统。
技术介绍
任务完成型对话策略学习旨在构建一个以完成任务为目标的对话系统，该系统可以通过几轮自然语言交互来帮助用户完成特定的单个任务或多域任务。它已广泛应用于聊天机器人和个人语音助手，例如苹果的Siri和微软的Cortana。近年来，强化学习逐渐成为了对话策略学习的主流方法。基于强化学习，对话系统可以通过与用户进行自然语言交互来逐步调整、优化策略，以提高性能。但是，原始强化学习方法在获得可用的对话策略之前需要进行大量人机对话交互，这不仅增加了训练成本，而且还恶化了早期训练阶段的用户体验。为了解决上述问题并加速对话策略的学习过程，研究者们在Dyna-Q框架的基础上，提出了DeepDyna-Q（DDQ）框架。DDQ框架引入了世界模型，为了使其与真实用户更相似，该模型使用真实用户经验进行训练，用以在动态环境中生成模拟用户经验，以下简称模拟经验。在对话策略的学习过程中，使用从实际交互中收集的真实经验和从与世界模型交互中收集的模拟经验共同训练对话智能体。借助引进世界模型，只需要使用少量的真实用户交互，可以显著提升对话策略的学习效率，然而，DDQ在进一步优化基于有限对话交互的对话策略学习方面，还面临着一些难题，例如，世界模型产生的模拟经验并不一定会改善性能，低质量的模拟经验甚至会对性能造成严重的负面影响。近来的一些研究为了解决这个问题，尝试使用生成式对抗网络（GAN...

【技术保护点】
1.一种用于检测对话策略学习中模拟用户经验质量的方法，其特征在于，包括以下步骤：/nS1.由世界模型生成模拟经验；/nS2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测；/nS3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。/n

【技术特征摘要】
1.一种用于检测对话策略学习中模拟用户经验质量的方法，其特征在于，包括以下步骤：
S1.由世界模型生成模拟经验；
S2.通过基于KL散度的质量检测器对所述的模拟经验进行质量检测；
S3.将质量检测合格的模拟经验进行保存以用于对话策略模型训练。

2.根据权利要求1所述的用于检测对话策略学习中模拟用户经验质量的方法，其特征在于，在步骤S2中，基于KL散度的质量检测器通过对比模拟经验与真实经验来进行模拟经验的质量检测。

3.根据权利要求2所述的用于检测对话策略学习中模拟用户经验质量的方法，其特征在于，在步骤S3中，将质量检测合格的模拟经验存储至缓冲器以用于对话策略模型训练。

4.根据权利要求2所述的用于检测对话策略学习中模拟用户经验质量的方法，其特征在于，在步骤S2中，根据世界模型生成的模拟经验更新词库world-dict，根据真实用户生成的真实经验更新词库real-dict，并通过KL散度衡量词库world-dict与词库real-dict的相似度以进行模拟经验的质量检测。

5.根据权利要求4所述的用于检测对话策略学习中模拟用户经验质量的方法，其特征在于，词库world-dict的主键为世界模型生成的用户动作，主键对应值为用户动作对应的频率；
词库real-dict的主键为真实用户生成的用户动作，主键对应值为用户动作对应的频率。

6.根据权利要求5所述的用于...

【专利技术属性】
技术研发人员：曹江，吴冠霖，方文其，平洋，栾绍童，闫顼，
申请(专利权)人：南湖实验室，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人