用于生成对话策略学习用高质量模拟经验的方法技术

技术编号：28942071 阅读：11 留言：0更新日期：2021-06-18 21:48

本发明专利技术提供了一种用于生成对话策略学习用高质量模拟经验的方法，属于机器学习技术领域，包括以下步骤：S1.由基于GP的世界模型预测产生模拟经验；S2.将模拟经验存储至缓冲器以用于对话策略模型训练。本方案基于高斯过程的世界模型能够避免传统DNN模型生成的模拟经验质量需要依赖训练数据量的问题，能够生成高质量的模拟经验，以补充有限的实际用户经验，有效避免初始阶段因为真实经验较少而导致学习效果不佳，学习效率低等问题。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成对话策略学习用高质量模拟经验的方法
本专利技术属于机器学习
，尤其是涉及一种用于生成对话策略学习用高质量模拟经验的方法。
技术介绍
任务完成型对话策略学习旨在构建一个以完成任务为目标的对话系统，该系统可以通过几轮自然语言交互来帮助用户完成特定的单个任务或多域任务。它已广泛应用于聊天机器人和个人语音助手，例如苹果的Siri和微软的Cortana。近年来，强化学习逐渐成为了对话策略学习的主流方法。基于强化学习，对话系统可以通过与用户进行自然语言交互来逐步调整、优化策略，以提高性能。但是，原始强化学习方法在获得可用的对话策略之前需要进行大量人机对话交互，这不仅增加了训练成本，而且还恶化了早期训练阶段的用户体验。为了解决上述问题并加速对话策略的学习过程，研究者们在Dyna-Q框架的基础上，提出了DeepDyna-Q（DDQ）框架。DDQ框架引入了世界模型，为了使其与真实用户更相似，该模型使用真实用户经验进行训练，用以在动态环境中生成模拟经验。在对话策略学习过程中，使用从实际交互中收集的真实经验和从与世界模型交互中收集的模拟经验共同训练对话智能体。借助引进世界模型，只需要使用少量的真实用户交互，能够显著提升对话策略的学习效率，然而，DDQ在进一步优化基于有限对话交互的对话策略学习方面还面临着一些难题，例如DDQ中的世界模型被构建为深度神经网络（DNN），其性能在很大程度上取决于训练所用的数据量。在真实经验相对较少的初始训练阶段，DNN对数据的高度依赖问题可能会使世界模型生成低质量的模拟经验，若要该...

【技术保护点】
1.一种用于生成对话策略学习用高质量模拟经验的方法，其特征在于，包括以下步骤：/nS1.由基于GP的世界模型预测产生模拟经验；/nS2.将模拟经验存储至缓冲器以用于对话策略模型训练。/n

【技术特征摘要】
1.一种用于生成对话策略学习用高质量模拟经验的方法，其特征在于，包括以下步骤：
S1.由基于GP的世界模型预测产生模拟经验；
S2.将模拟经验存储至缓冲器以用于对话策略模型训练。

2.根据权利要求1所述的用于生成对话策略学习用高质量模拟经验的方法，其特征在于，在步骤S2之前，先由质量检测器对所述模拟经验进行质量检测，且在步骤S2中将质量检测合格的模拟经验存储至缓冲器。

3.根据权利要求1或2所述的用于生成对话策略学习用高质量模拟经验的方法，其特征在于，基于GP的世界模型包括多个GP模型，且所述的世界模型由W（s,a；θw）表示，s为当前对话状态，a为最后一个响应动作，θw表示各个GP模型的参数。

4.根据权利要求3所述的用于生成对话策略学习用高质量模拟经验的方法，其特征在于，在步骤S1中，通过多个GP模型预测生成至少一组模拟经验组，且每组模拟经验组包括响应动作au、奖励r和变量t。

5.根据权利要求4所述的用于生成对话策略学习用高质量模拟经验的方法，其特征在于，所述的世界模型包括三个GP模型，且三个GP模型分别用于生成响应动作au、奖励r和变量t。

6.根据权利要求5所述的用于生成对话策略学习用高质量模拟经验的方法，其特征在于，在步骤S1的模拟经验...

【专利技术属性】
技术研发人员：平洋，曹江，方文其，吴冠霖，栾绍童，闫顼，
申请(专利权)人：南湖实验室，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人