基于分层强化学习网络的对话方法、装置及存储介质制造方法及图纸

技术编号:28623266 阅读:19 留言:0更新日期:2021-05-28 16:19
本发明专利技术涉及人工智能技术领域,揭露一种基于分层强化学习网络的对话方法,包括:构建分层强化学习网络结构,包括采用价值导向算法进行训练的管理层、采用策略导向算法进行训练的执行层以及管理层、执行层之间的反馈机制;对分层强化学习网络结构重复多次问答行为进行训练得到问答模型;当接收到客户端发送的提问请求时,从问答模型获取对应的回复信息并返回发送提问请求的客户端。本发明专利技术的基于分层强化学习网络的对话方法降低了问答行为强化学习的复杂度,提升了管理层的学习效率、执行层的学习性能以及分层强化学习网络结构的决策准确性。

【技术实现步骤摘要】
基于分层强化学习网络的对话方法、装置及存储介质
本专利技术涉及人工智能
,尤其涉及一种基于分层强化学习网络的对话方法、电子装置及计算机可读存储介质。
技术介绍
在智能问答系统中,对话策略决定了系统如何根据用户的提问,从预先定义完备的系统动作集合中选取最为合适的回复。为了提高系统的问答能力覆盖范围,例如多领域的任务型机器人,系统动作集合往往被设计过于庞大和复杂,这直接导致对话策略学习的两大难点:学习任务难度大和学习效率低。其背后的根本原因都是因为问答模型无法在如此庞大的动作空间中进行高效的探索和学习。目前针对大规模系统动作集合的对话策略学习,并没有成熟的算法训练方案。实验结果表明,一些在小规模系统动作集合设定下可行的算法,并不能直接扩展到大规模系统动作集合。即使是在小规模系统动作集合设定下,基于现有算法所训练的问答模型在任务成功率这一指标上,平均任务成功率约为80%,性能较差。
技术实现思路
鉴于以上内容,有必要提供一种基于分层强化学习网络的对话方法,用于降低问答模型的学习任务难度和提高问答模型的学习效率,以提升本文档来自技高网...

【技术保护点】
1.一种基于分层强化学习网络的对话方法,其特征在于,包括:/n构建分层强化学习网络结构,所述分层强化学习网络结构包括采用价值导向算法进行训练的管理层、采用策略导向算法进行训练的执行层以及所述管理层、执行层之间的反馈机制;/n获取提问信息,所述管理层根据所述提问信息获取问答行为的第一对话状态,并根据所述对话状态采用对应的对话行为策略决定对话行为,所述执行层根据对话行为选择第二对话状态,并根据所述第二对话状态采用对应的槽位策略决定槽位,将所述槽位作为所述提问信息对应的回复信息输出,将所述分层强化学习网络结构获取提问信息并得到输出的回复信息作为一次问答行为,通过多次问答行为对所述分层强化学习网络结构...

【技术特征摘要】
1.一种基于分层强化学习网络的对话方法,其特征在于,包括:
构建分层强化学习网络结构,所述分层强化学习网络结构包括采用价值导向算法进行训练的管理层、采用策略导向算法进行训练的执行层以及所述管理层、执行层之间的反馈机制;
获取提问信息,所述管理层根据所述提问信息获取问答行为的第一对话状态,并根据所述对话状态采用对应的对话行为策略决定对话行为,所述执行层根据对话行为选择第二对话状态,并根据所述第二对话状态采用对应的槽位策略决定槽位,将所述槽位作为所述提问信息对应的回复信息输出,将所述分层强化学习网络结构获取提问信息并得到输出的回复信息作为一次问答行为,通过多次问答行为对所述分层强化学习网络结构进行训练得到问答模型;
当接收到客户端发送的提问请求时,从所述问答模型获取对应的回复信息,并将所述回复信息返回发送所述提问请求的客户端。


2.如权利要求1所述的基于分层强化学习网络的对话方法,其特征在于,所述价值导向算法为深度Q网络算法,所述深度Q网络算法的损失函数为:
LM(θ)=Ee~D[(y-Q(s,a;θ))2]



其中,y是拟合目标参数,r为当前问答行为的奖励信号,γ为防止模型训练时不收敛的常数,e为训练样本,D为训练数据集,E()为期望值函数,用于从训练集D中批量采样训练样本e来计算期望值,θ为均方误差损失参数,θ-为θ更新前的数值,Q()为状态动作值函数,用于表示由参数θ或θ-表征的模型,s是当前问答行为的第一对话状态,a是当前问答行为的对话行为,s’是下一次问答行为的第一对话状态,a’是下一次问答行为的对话行为。


3.如权利要求2所述的基于分层强化学习网络的对话方法,其特征在于,所述深度Q网络的更新算法为随机梯度下降法。


4.如权利要求1所述的基于分层强化学习网络的对话方法,其特征在于,所述策略导向算法为近端策略优化算法,所述近端策略优化算法的损失函数为:
LW=Lclip+c1LV+c2Lent
其中,Lclip是执行层的槽位策略对应的反馈信号的值,LV是执行层中状态评估模块选择第二对话状态的操作对应的反馈信号的值,Lent是对执行层的正则化规约算法值,c1和c2是用于调整所述近端策略优化算法的权重偏向的预设参数。


5.如权利要求1所述的基于分层强化学习网络的对话方法,其特征在于,所述反馈机制通过...

【专利技术属性】
技术研发人员:王思瀚
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1