【技术实现步骤摘要】
引入情绪调控机制的机器人运动决策方法、系统、装置
本专利技术属于智能机器人领域,具体涉及一种引入情绪调控机制的机器人运动决策方法、系统、装置。
技术介绍
当前机器人发展的一个巨大的挑战是:如何学会推理出环境潜在的动力学变化,以及学会如何有效地学习一种新的知识或技能。目前,科学家广泛借鉴人脑的工作机制,建立一系列脑启发的计算模型,试图实现类人智能。决策过程是大脑中一种高级认知加工过程,大量的神经科学数据表明人类大脑系统中存在两种显著不同的决策系统:一种是可陈述的基于模型的决策系统,该系统主要用于完成一系列目标导向的行为;另一种是反射式的无模型决策系统,该系统则主要驱动一系列习惯性行为的产生。基于模型推理通常需要对外部环境进行建模,根据当前状态不断地预测未来可能的结果,进而以一种动态规划的形式找到一组最优的执行策略。这一过程通常来说拥有很高的学习效率和决策精度,但需要长时间计算,调度各方面的工作记忆来推断出一个可靠的结果;与之相反,无模型推理是通过与环境不断的交互,根据反馈的强化信号对大脑的神经网络进行修正,最终形成一种从状态到动作的直接映射,表现为习惯性行为。这一过程通常需要与环境进行大量交互,学习效率相对较低,但是决策速度快,对快速反应有着重要作用。然而,这两个并行工作的系统在大脑中如何产生一致性行为仍未可知。最近,大量神经科学研究表明,情绪是这两个决策仲裁过程中的一种重要的影响因素。许多决策计算模型被纳入到强化学习框架当中,其中,行动-评价算法框架是最为流行的计算框架之一。基于模型的方法一般具有很高的采样有效性,如PILCO就是一种高效的基于模型的策略搜 ...
【技术保护点】
1.一种引入情绪调控机制的机器人运动决策方法,其特征在于,该方法包括:步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1;步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态‑动作值函数网络Q(x,u);步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态‑动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态‑动作值函数Q(xt,u),获取无模型决策;步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;其中,所述的环境感知模型基于概率神经元网络构建,用于基于当前状态‑动作信息预测下一时刻状态变化;所述的状态‑动作值函数网络基于感知神经网络构建,用于根据 ...
【技术特征摘要】
1.一种引入情绪调控机制的机器人运动决策方法,其特征在于,该方法包括:步骤S10,获取机器人t时刻动作变量ut及状态值xt,利用环境感知模型生成机器人t+1时刻的预测状态值x′t+1;步骤S20,获取t时刻即时奖励值rt,将动作变量ut、状态值xt、即时奖励值rt添加到经验库当中,利用经验库中批采样的数据更新状态-动作值函数网络Q(x,u);步骤S30,基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策;步骤S40,根据t时刻的状态xt和策略神经网络输出策略πθ,最小化t时刻状态-动作值函数Q(xt,u),获取无模型决策;步骤S50,基于状态预测误差、奖励预测误差以及平均奖励值,通过情绪加工可计算模型生成情绪响应信号,根据所述情绪响应信号的阈值选择路径决策;其中,所述的环境感知模型基于概率神经元网络构建,用于基于当前状态-动作信息预测下一时刻状态变化;所述的状态-动作值函数网络基于感知神经网络构建,用于根据状态-动作-奖励信息获取全局输出策略;所述情绪加工可计算模型基于生物神经元动态模型构建,用于基于状态预测误差、奖励预测误差以及平均奖励值计算情绪响应信号;所述状态预测误差基于t时刻状态xt与t时刻预测状态x′t+1获取,所述奖励预测误差基于t时刻奖励值rt、t时刻的状态-动作值函数Qt和t+1时刻的状态-动作值函数Qt+1获取,所述平均奖励值为截止t时刻的累积奖励值。2.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,所述环境感知模型由N个结构相同的概率神经网络构成,其训练过程中,通过最小化每个网络输出与目标之间的负对数似然来进行所述环境感知模型的优化。3.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,所述状态-动作值函数网络在训练过程中,采用多层感知器神经网络来拟合状态-动作值函数Qπ(x,y),该函数为状态X和策略π下,未来长期的折扣回报之和,该函数需满足以下公式的更新原则:Qπ(xt,ut)=r(xt,π(xt))+γQπ(xt+1,π(xt+1))其中,r为t时刻所获得的即时奖励值,γ为折扣系数。4.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规划求解,获取基于模型的最优决策”,其方法为:采用无模型策略网络以及所述环境感知模型,初始化规划时间为H,利用环境感知模型下一步预测状态值x′t+1递推生成状态转移轨迹;基于无模型策略的引导,优化全局预测状态的状态-动作值函数Q(xt+H,u),求得局部最优值作为微分动态算法的终端约束值;基于终端约束值,采用传统微分动态算法优化求得最优动作序列作为最优决策。5.根据权利要求1所述的引入情绪调控机制的机器人运动决策方法,其特征在于,步骤S30“基于环境感知预测模型获取t到t+H时间段内的预测轨迹,在t+H时刻策略网络输出策略πθ的约束下计算所述预测轨迹在末端状态的状态-动作值函数Q(xt+H,u)的局部最优解,对所述的局部最优解进行微分动态规...
【专利技术属性】
技术研发人员:黄销,吴伟,乔红,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。