一种基于预测控制规划模型强化学习的机器人控制方法技术

技术编号:42860237 阅读:38 留言:0更新日期:2024-09-27 17:24
本发明专利技术提供一种基于预测控制规划模型强化学习的机器人控制方法。该方法包括初始化、环境交互、更新模型以及更新策略四个步骤。首先进行预测控制规划模型和强化学习算法初始化。其次与环境交互收集训练轨迹:对于每一个当前状态,根据认知不确定性通过贝叶斯后验估计自适应调节规划步数,得到预测控制规划模型在该状态下的候选动作集,执行使用交叉熵方法输出的优胜动作。再次更新预测控制规划模型和值函数。最后更新强化学习策略网络。本发明专利技术的技术方案显著降低样本复杂度,并有效缓解模型偏差对有模型强化学习算法的负面影响。

【技术实现步骤摘要】

本专利技术涉及机器人智能控制领域,具体涉及一种基于预测控制规划模型强化学习的机器人控制方法


技术介绍

1、随着传感器技术、计算机技术和智能技术的不断发展,机器人的应用越来越广泛。例如,在工业制造、家务照护、环境探测等场景中,机器人能够自主完成任务显得越来越重要。强化学习算法提供了强大的框架,帮助机器人自主解决顺序决策问题。一般而言,强化学习算法分为无模型和有模型两种。然而,无模型强化学习算法很少直接应用于机器人系统,因为它们具有较高的样本复杂度,会增加机器人的损耗,缩短其寿命,而且在训练中的中间策略可能是不安全和有害的,导致机器人偏离安全区域或发生故障。

2、与无模型的强化学习相比,有模型的强化学习算法通过学习系统及环境的状态转移模型,进行轨迹模拟与规划,降低了算法的样本复杂度。然而,模型偏差是有模型强化学习的固有问题,它会在长期规划时使策略指向未知区域,导致价值高估并打乱策略学习,容易导致机器人误入不安全区域;而过短的规划则无法充分发挥有模型的优势,在规划步数为零时则退化为无模型强化学习。因此,通过认知不确定性来利用贝叶斯后验估计自适应调节本文档来自技高网...

【技术保护点】

1.一种基于预测控制规划模型强化学习的机器人控制方法,其特征在于,所述方法包括初始化、环境交互、更新模型以及更新策略,具体包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,所述步骤S2.2具体包括:

3.根据权利要求1所述的方法,其特征在于,所述步骤S2.3具体包括:

【技术特征摘要】

1.一种基于预测控制规划模型强化学习的机器人控制方法,其特征在于,所述方法包括初始化、环境交互、更新模型以及更新策略,具体包括以下步骤:

...

【专利技术属性】
技术研发人员:朱进陈嘉铖
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1