对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质制造方法及图纸

技术编号：36812408 阅读：26 留言：0更新日期：2023-03-09 00:53

本发明专利技术公开了一种对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质。所述方法包括：采用邻域随机化从专家模拟器中构建用户模型集合，所述用户模型集合中包括至少两个用户模型；将对话模型分别利用所述用户模型集合中不同的所述用户模型训练，获得不同的对话轨迹；根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量，确定目标用户模型。本发明专利技术实施例公开的用户模型评估技术方案能够成功地提高对话模型的性能。评估技术方案能够成功地提高对话模型的性能。评估技术方案能够成功地提高对话模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质

[0001]本专利技术涉及计算机
，特别涉及一种对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质。

技术介绍

[0002]任务型对话系统旨在帮助用户通过对话完成现实生活中的任务，例如帮助用户找寻商品，预订酒店餐厅等。与开放领域对话系统相比，面向任务的对话系统更侧重于在一个或多个领域完成某些特定任务。面向任务的对话系统使用深度强化学习(DRL)来学习策略，训练具有不同对话轨迹的DRL对话模型，能够提高对话模型的泛化能力。一种有效的多样化方法是让对话模型与用户模型交互，但是，用户模型通常缺乏人类对话者的语言复杂性并且包含生成错误，其设计的偏差可能会降低对话模型的性能。

技术实现思路

[0003]为了解决上述现有技术中存在的至少一个技术问题，本专利技术实施例提供了一种对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质。所述技术方案如下：
[0004]第一方面，提供了一种对话模型训练用的用户模型确定方法，所述方法包括：
[0005]采用邻域随机化从专家模拟器中构建用户模型集合，所述用户模型集合中包括至少两个用户模型；
[0006]将对话模型分别利用所述用户模型集合中不同的所述用户模型训练，获得不同的对话轨迹；
[0007]根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量，确定目标用户模型。
[0008]进一步地，所述采用邻域随机化从专家模拟器中构建用户模型集合...

【技术保护点】

【技术特征摘要】
1.一种对话模型训练用的用户模型确定方法，其特征在于，包括：采用邻域随机化从专家模拟器中构建用户模型集合，所述用户模型集合中包括至少两个用户模型；将对话模型分别利用所述用户模型集合中不同的所述用户模型训练，获得不同的对话轨迹；根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量，确定目标用户模型。2.如权利要求1所述的方法，其特征在于，所述采用邻域随机化从专家模拟器中构建用户模型集合，包括：利用具有不同初始参数的多个神经网络模型，分别训练出对应不同对话环境的用户模型，所述初始参数随机生成，所述用户模型的训练目标为：其中，θ为所述用户模型的参数向量，M
θ
是用户模型，A
u
是用户模型可用的对话行为的个数，是用户模型的状态，a
t,i
是第i个用户模型的动作，t表示对话回合，T为对话回合的上限值。3.如权利要求1所述的方法，其特征在于，所述将对话模型分别利用所述用户模型集合中不同的所述用户模型训练，获得不同的对话轨迹，包括：所述用户模型初始化任务目标，所述任务目标包括：约束和请求；所述对话模型按照不同的所述用户模型生成的所述任务目标分别与所述用户模型对话，获得所述对话轨迹，所述对话轨迹包括：所述对话模型与所述用户模型完成对话后生成的交互元组，所述交互元组包括：对话模型的状态，对话模型的行为、用户模型的状态、用户模型的行为、对话奖励值。4.如权利要求3所述的方法，其特征在于，所述将对话模型分别利用所述用户模型集合中不同的所述用户模型训练，获得不同的对话轨迹，包括：根据如下公式计算多样化比值：其中，T
i
表示i时刻的交互元组，T
j
表示j时刻的交互元组，D
u
用于存储专家模拟器的交互元组，D
s
用于存储多样化用户模型的...

【专利技术属性】
技术研发人员：刘智斌，周振友，李光顺，董兆安，庞入才，雷玉霞，
申请(专利权)人：曲阜师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人