对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质制造方法及图纸

技术编号:36812408 阅读:26 留言:0更新日期:2023-03-09 00:53
本发明专利技术公开了一种对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质。所述方法包括:采用邻域随机化从专家模拟器中构建用户模型集合,所述用户模型集合中包括至少两个用户模型;将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹;根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量,确定目标用户模型。本发明专利技术实施例公开的用户模型评估技术方案能够成功地提高对话模型的性能。评估技术方案能够成功地提高对话模型的性能。评估技术方案能够成功地提高对话模型的性能。

【技术实现步骤摘要】
对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质


[0001]本专利技术涉及计算机
,特别涉及一种对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质。

技术介绍

[0002]任务型对话系统旨在帮助用户通过对话完成现实生活中的任务,例如帮助用户找寻商品,预订酒店餐厅等。与开放领域对话系统相比,面向任务的对话系统更侧重于在一个或多个领域完成某些特定任务。面向任务的对话系统使用深度强化学习(DRL)来学习策略,训练具有不同对话轨迹的DRL对话模型,能够提高对话模型的泛化能力。一种有效的多样化方法是让对话模型与用户模型交互,但是,用户模型通常缺乏人类对话者的语言复杂性并且包含生成错误,其设计的偏差可能会降低对话模型的性能。

技术实现思路

[0003]为了解决上述现有技术中存在的至少一个技术问题,本专利技术实施例提供了一种对话模型训练用的用户模型确定方法、装置、设备和计算机可读介质。所述技术方案如下:
[0004]第一方面,提供了一种对话模型训练用的用户模型确定方法,所述方法包括:
[0005]采用邻域随机化从专家模拟器中构建用户模型集合,所述用户模型集合中包括至少两个用户模型;
[0006]将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹;
[0007]根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量,确定目标用户模型。
[0008]进一步地,所述采用邻域随机化从专家模拟器中构建用户模型集合,包括:
[0009]利用具有不同初始参数的多个神经网络模型,分别训练出对应不同对话环境的用户模型,所述初始参数随机生成,所述用户模型的训练目标为:
[0010][0011]其中,θ为所述用户模型的参数向量,
[0012]M
θ
是用户模型,
[0013]A
u
是用户模型可用的对话行为的个数,
[0014]是用户模型的状态,
[0015]a
t,i
是第i个用户模型的动作,
[0016]t表示对话回合,T为对话回合的上限值。
[0017]进一步地,所述将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹,包括:
[0018]所述用户模型初始化任务目标,所述任务目标包括:约束和请求;
[0019]所述对话模型按照不同的所述用户模型生成的所述任务目标分别与所述用户模型对话,获得所述对话轨迹,所述对话轨迹包括:所述对话模型与所述用户模型完成对话后生成的交互元组,所述交互元组包括:对话模型的状态,对话模型的行为、用户模型的状态、用户模型的行为、对话奖励值。
[0020]进一步地,所述将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹,包括:
[0021]根据如下公式计算多样化比值:
[0022][0023]其中,T
i
表示i时刻的交互元组,T
j
表示j时刻的交互元组,D
u
用于存储专家模拟器的交互元组,D
s
用于存储多样化用户模型的交互元组;
[0024]根据所述多样化比值评估所述用户模型是否满足多样化条件,若满足,则获取所述用户模型对应的对话轨迹,若不满足,则不获取所述用户模型对应的对话轨迹。
[0025]进一步地,所述根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量,确定目标用户模型,包括:
[0026]根据人类对话轨迹预测人类对话中的对话奖励;
[0027]根据所述对话奖励对所述用户模型进行近端策略优化学习确定所述目标用户模型。
[0028]进一步地,所述根据人类对话轨迹预测人类对话中的对话奖励,包括:
[0029]将人类对话轨迹构建为玻尔兹曼分布模型;
[0030]利用梯度下降法并根据所述玻尔兹曼分布模型预测所述对话奖励。
[0031]进一步地,所述根据所述对话奖励对所述用户模型进行近端策略优化学习获得对话策略,包括:
[0032]根据预设的累计折扣收益确定所述用户模型中的最优用户模型;
[0033]以所述最优用户模型为基准,计算用户模型集合中其他用户模型与所述最优用户模型的距离;
[0034]根据所述距离确定参与训练的所述目标用户模型。
[0035]第二方面,提供了一种对话模型训练用的用户模型确定装置,所述装置包括:
[0036]用户模型集合构建模块,用于采用邻域随机化从专家模拟器中构建用户模型集合,所述用户模型集合中包括至少两个对应不同对话环境的用户模型;
[0037]训练模块,用于将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹;
[0038]目标模型确定模块,用于根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量,确定目标用户模型。
[0039]进一步地,用户模型集合构建模块具体用于:
[0040]利用具有不同初始参数的多个神经网络模型,分别训练出对应不同对话环境的用户模型,初始参数随机生成,用户模型的训练目标为:
[0041][0042]其中,θ为用户模型的参数向量。
[0043]进一步地,训练模块具体用于:
[0044]用户模型初始化任务目标,任务目标包括:约束和请求;
[0045]对话模型按照不同的用户模型生成的任务目标分别与用户模型对话,获得对话轨迹,对话轨迹包括:对话模型与用户模型完成对话后生成的交互元组,交互元组包括:对话模型的状态,对话模型的行为、用户模型的状态、用户模型的行为、对话奖励值。
[0046]进一步地,训练模块402:用户模型的多样化评估模块,用于:
[0047]根据如下公式计算多样化比值:
[0048][0049]其中,D
u
用于存储专家模拟器的交互元组,D
s
用于存储多样化用户模型的交互元组;
[0050]根据多样化比值评估用户模型是否满足多样化条件,若满足,则获取用户模型对应的对话轨迹,若不满足,则不获取用户模型对应的对话轨迹。
[0051]进一步地,目标模型确定模块,包括:
[0052]对话奖励预测模块,用于根据人类对话轨迹预测人类对话中的对话奖励;
[0053]优化学习模块,用于根据对话奖励对用户模型进行近端策略优化学习确定目标用户模型。
[0054]进一步地,对话奖励预测模块,具体用于:
[0055]将人类对话轨迹构建为玻尔兹曼分布模型;
[0056]利用梯度下降法并根据玻尔兹曼分布模型预测对话奖励。
[0057]进一步地,优化学习模块,具体用于:
[0058]根据预设的累计折扣收益确定用户模型中的最优用户模型;
[0059]以最优用户模型为基准,计算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话模型训练用的用户模型确定方法,其特征在于,包括:采用邻域随机化从专家模拟器中构建用户模型集合,所述用户模型集合中包括至少两个用户模型;将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹;根据所述对话轨迹并利用基于逆强化学习的评估器评估所述用户模型的对话质量,确定目标用户模型。2.如权利要求1所述的方法,其特征在于,所述采用邻域随机化从专家模拟器中构建用户模型集合,包括:利用具有不同初始参数的多个神经网络模型,分别训练出对应不同对话环境的用户模型,所述初始参数随机生成,所述用户模型的训练目标为:其中,θ为所述用户模型的参数向量,M
θ
是用户模型,A
u
是用户模型可用的对话行为的个数,是用户模型的状态,a
t,i
是第i个用户模型的动作,t表示对话回合,T为对话回合的上限值。3.如权利要求1所述的方法,其特征在于,所述将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹,包括:所述用户模型初始化任务目标,所述任务目标包括:约束和请求;所述对话模型按照不同的所述用户模型生成的所述任务目标分别与所述用户模型对话,获得所述对话轨迹,所述对话轨迹包括:所述对话模型与所述用户模型完成对话后生成的交互元组,所述交互元组包括:对话模型的状态,对话模型的行为、用户模型的状态、用户模型的行为、对话奖励值。4.如权利要求3所述的方法,其特征在于,所述将对话模型分别利用所述用户模型集合中不同的所述用户模型训练,获得不同的对话轨迹,包括:根据如下公式计算多样化比值:其中,T
i
表示i时刻的交互元组,T
j
表示j时刻的交互元组,D
u
用于存储专家模拟器的交互元组,D
s
用于存储多样化用户模型的...

【专利技术属性】
技术研发人员:刘智斌周振友李光顺董兆安庞入才雷玉霞
申请(专利权)人:曲阜师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1