引入情绪调控机制的机器人运动决策方法、系统、装置制造方法及图纸

技术编号:21851712 阅读:19 留言:0更新日期:2019-08-14 00:36
本发明专利技术属于智能机器人领域,具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置,旨在解决机器人决策速度与学习效率的问题。本系统方法包括利用环境感知模型,根据当前动作变量和状态值生成下一时刻的预测状态值;基于动作变量、状态值、即时奖励,更新状态‑动作值函数网络;基于环境感知模型获取预测轨迹,计算预测轨迹局部最优解,并进行微分动态规划,获取基于模型的最优决策;根据当前状态和策略,最小化状态‑动作值函数,获取无模型决策;基于状态预测误差、奖励预测误差及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据信号的阈值选择路径决策。本发明专利技术在保证学习效率同时逐步提高决策速度。

Method, System and Device of Robot Motion Decision Making with Emotional Regulation Mechanisms

【技术实现步骤摘要】
引入情绪调控机制的机器人运动决策方法、系统、装置
本专利技术属于智能机器人领域,具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置。
技术介绍
当前机器人发展的一个巨大的挑战是:如何学会推理出环境潜在的动力学变化,以及学会如何有效地学习一种新的知识或技能。目前,科学家广泛借鉴人脑的工作机制,建立一系列脑启发的计算模型,试图实现类人智能。决策过程是大脑中一种高级认知加工过程,大量的神经科学数据表明人类大脑系统中存在两种显著不同的决策系统:一种是可陈述的基于模型的决策系统,该系统主要用于完成一系列目标导向的行为;另一种是反射式的无模型决策系统,该系统则主要驱动一系列习惯性行为的产生。基于模型推理通常需要对外部环境进行建模,根据当前状态不断地预测未来可能的结果,进而以一种动态规划的形式找到一组最优的执行策略。这一过程通常来说拥有很高的学习效率和决策精度,但需要长时间计算,调度各方面的工作记忆来推断出一个可靠的结果;与之相反,无模型推理是通过与环境不断的交互,根据反馈的强化信号对大脑的神经网络进行修正,最终形成一种从状态到动作的直接映射,表现为习惯性行为。这一过程通常需要与环境进行大量交互,学习效率相对较低,但是决策速度快,对快速反应有着重要作用。然而,这两个并行工作的系统在大脑中如何产生一致性行为仍未可知。最近,大量神经科学研究表明,情绪是这两个决策仲裁过程中的一种重要的影响因素。许多决策计算模型被纳入到强化学习框架当中,其中,行动-评价算法框架是最为流行的计算框架之一。基于模型的方法一般具有很高的采样有效性,如PILCO就是一种高效的基于模型的策略搜索方法,该方法将模型的不确定性整合到机器人的长期规划当中,极大提高了机器人的数据利用效率。但是学习模型采用的是高斯回归方法,解决高维决策问题时,计算复杂度非常高,严重影响决策速度。采用无模型方法进行学习,一般需要与环境进行大量交互,数据利用率很低。对此,许多学者探索如何将基于模型的学习算法同无模型的学习方法进行融合。将基于模型与无模型过程融合的最经典框架是Dyna,该框架将仿真模型产生的数据也加入到经验库中,对无模型网络进行训练,能够有效加快无模型算法的训练过程。但若仿真模型不太准确,势必会影响最后得到的最优。将情绪调控决策的神经机制引入到机器人决策算法当中,在任务学习周期中,对基于模型和无模型决策过程进行动态分配,一方面更接近于大脑的决策过程,另一方面能够有效平衡学习效率和决策速度的关系。具体而言,在任务学习早期,由于经验知识匮乏,对环境状态预测以及奖励预测误差很大,会导致更多负性情绪产生(如压力、焦虑或不自信),这会进一步驱动机器人采用更多基于模型推理的决策,决策速度慢,但学习效率高。随着训练次数增加,状态以及奖励预测误差都会有所降低,这会导致更多中性或正性情绪产生,促进机器人更多采用无模型决策方案,逐渐形成习惯性动作,提高决策速度。
技术实现思路
为了解决现有技术中的上述问题,即为了解决基于模型决策与无模型决策之间的调度过程,平衡决策速度与学习效率之间的问题,本专利技术第一方面,提出了一种引入情绪调控机制的机器人运动决策方法,该方法包括:步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值xt′+1;步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;其中,所述的环境感知模型基于概率神经元网络构建,输入样本是当前状态-动作,输出样本是下一步状态变化;所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。在一些优选的实施方式中,所述环境感知预测模型由N个结构相同的概率神经网络构成,其训练过程中,通过最小化每个网络输出与目标之间的负对数似然来进行所述环境感知模型的优化。在一些优选的实施方式中,所述状态-动作值函数网络在训练过程中,采用多层感知器神经网络来拟合状态-动作值函数Qπ(x,u),该函数为状态X和策略π下,未来长期的折扣回报之和,该函数需满足以下公式的更新原则:Qπ(xt,ut)=r(xt,π(xt))+γQπ(xt+1,π(xt+1))其中,r为t时刻从环境中获得的即时奖励,γ为值函数更新的折扣系数。在一些优选的实施方式中,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:采用无模型策略网络以及所述环境学习模型,初始化规划时间为H,利用环境学习模型预测下一步状态值x′t+1递推生成状态转移轨迹;基于无模型策略的引导,优化全局预测状态的状态-动作值函数Q(xt+H,u),求得局部最优值作为微分动态算法的终端约束值;基于终端约束值,采用传统微分动态算法优化求得最优动作序列作为最优决策。在一些优选的实施方式中,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:将人工设定的终端奖励约束rf作为终端值函数,采用传统微分动态算法优化求得次优动作序列;基于模型策略的引导,优化预设目标函数,得到基于模型的最优决策。在一些优选的实施方式中,步骤S40“根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策”,其方法为:基于当前状态,利用策略神经网络获取动作路径决策;其中所述策略神经网络采用多层感知器网络构建,并根据t时刻反馈的奖励,迭代学习实现最小化当前状态-动作值函数Q(xt,u),进而求得所对应的无模型决策。在一些优选的实施方式中,步骤S50中所述情绪加工可计算模型为神经动力学模型,该模型中每个神经元的膜电位服从生物神经元动态模型,并采用预设的动力学方程模拟突触之间神经递质的传本文档来自技高网
...

【技术保护点】
1.一种引入情绪调控机制的机器人运动决策方法,其特征在于,该方法包括:步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1;步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态‑动作值函数网络Q(x,u);步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态‑动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态‑动作值函数Q(xt,u),获取无模型决策;步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;其中,所述的环境感知模型基于概率神经元网络构建,用于基于当前状态‑动作信息预测下一时刻状态变化;所述的状态‑动作值函数网络基于感知神经网络构建,用于根据状态‑动作‑奖励信息获取全局输出策略;所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态‑动作值函数Qt和t+1时刻的状态‑动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。...

【技术特征摘要】
1.一种引入情绪调控机制的机器人运动决策方法,其特征在于,该方法包括:步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1;步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;其中,所述的环境感知模型基于概率神经元网络构建,用于基于当前状态-动作信息预测下一时刻状态变化;所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。2.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,所述环境感知模型由N个结构相同的概率神经网络构成,其训练过程中,通过最小化每个网络输出与目标之间的负对数似然来进行所述环境感知模型的优化。3.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,所述状态-动作值函数网络在训练过程中,采用多层感知器神经网络来拟合状态-动作值函数Qπ(x,y),该函数为状态X和策略π下,未来长期的折扣回报之和,该函数需满足以下公式的更新原则:Qπ(xt,ut)=r(xt,π(xt))+γQπ(xt+1,π(xt+1))其中,r为t时刻所获得的即时奖励值,γ为折扣系数。4.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:采用无模型策略网络以及所述环境感知模型,初始化规划时间为H,利用环境感知模型下一步预测状态值x′t+1递推生成状态转移轨迹;基于无模型策略的引导,优化全局预测状态的状态-动作值函数Q(xt+H,u),求得局部最优值作为微分动态算法的终端约束值;基于终端约束值,采用传统微分动态算法优化求得最优动作序列作为最优决策。5.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规...

【专利技术属性】
技术研发人员:黄销吴伟乔红
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1