当前位置: 首页 > 专利查询>上海大学专利>正文

基于混合强化学习的机器人安全近优运动规划方法技术

技术编号:46625811 阅读:1 留言:0更新日期:2025-10-14 21:22
本发明专利技术公开了基于混合强化学习的机器人安全近优运动规划方法,属于机器人运动技术领域。方法包括:初始化机器人初始状态、多层神经网络权重和高阶控制屏障函数HOCBF参数;通过多层神经网络前向传播生成目标导航器;从HOCBF定义的安全控制集筛选安全控制器;融合目标导航器和安全控制器,生成最终控制策略;计算贝尔曼误差;基于最终控制策略和贝尔曼误差,更新机器人初始状态、多层神经网络权重。本发明专利技术通过将神经网络逼近的目标导航器与HOCBF安全控制器深度融合,构建具有分层保障架构的混合控制系统。克服了传统CBF在高阶系统中因李导数消失导致的安全保障失效问题,同时突破现有HOCBF方案局限于局部优化的技术瓶颈。

【技术实现步骤摘要】

本专利技术属于机器人运动,特别涉及基于混合强化学习的机器人安全近优运动规划方法


技术介绍

1、随着人工智能的飞速发展,机器人的使用场景越来越多,其相应的运动控制系统也层出不穷。机器人通过自主运动控制系统,进行路径的规划与避障自动驾驶。

2、但是目前,现有的同类安全控制方案存在如下缺陷:1.传统控制屏障函数(cbf)在复杂系统中的应用局限性:传统cbf方法要求控制仿射系统动态必须满足李导数存在性条件。但在高阶系统中,随着系统阶数增加,导致李导数消失问题,控制量无法有效作用于cbf表征的状态维度,这使得经典cbf方案无法直接适用于无人机、机械臂等典型高阶非线性系统。2.高阶控制屏障函数(hocbf)的优化局限性:现有hocbf方案提出的qp框架虽能处理时变系统,但其优化过程仅关注局部最优解,缺乏全局最优性保证。同时该方法未考虑初始状态约束条件,在实际工程应用中存在稳定性风险。3.神经网络近似方案的收敛性缺陷:现有hocbf方案提出的hjb-hocbf混合方法虽能构建约束最优控制器,但其采用的神经网络近似算法缺乏严格的数学收敛性证明,导致算法在复杂本文档来自技高网...

【技术保护点】

1.基于混合强化学习的机器人安全近优运动规划方法,其特征在于,方法包括如下:

2.根据权利要求1所述的基于混合强化学习的机器人安全近优运动规划方法,其特征在于,多层神经网络包括隐藏层、输出层,多层神经网络的权重为,表示第k层的神经网络权重矩阵,为多层神经网络的层数;

3.根据权利要求2所述的基于混合强化学习的机器人安全近优运动规划方法,其特征在于,高阶控制屏障函数HOCBF定义的安全控制集为,在安全控制集中实时筛选安全控制器;

4.根据权利要求3所述的基于混合强化学习的机器人安全近优运动规划方法,其特征在于,融合目标导航器和安全控制器,生成最终控制策略...

【技术特征摘要】

1.基于混合强化学习的机器人安全近优运动规划方法,其特征在于,方法包括如下:

2.根据权利要求1所述的基于混合强化学习的机器人安全近优运动规划方法,其特征在于,多层神经网络包括隐藏层、输出层,多层神经网络的权重为,表示第k层的神经网络权重矩阵,为多层神经网络的层数;

3.根据权利要求2所述的基于混合强化学习的机器人安全近优运动规划方法,其特征在于,高阶控制屏障函数hocbf定义的安全控制集为,在安全控制集中实时筛选安全控制器;

4.根据权利要求3所述的基于混合强化学习的机器人安全近优运动规划方法,其特征在于,融合目标导航器和安全控制器,生成最终控制策略。

5.根据权利要求4所述的基于混合强化学习的机...

【专利技术属性】
技术研发人员:赵国翔江雨荷任肖强徐梁杨子璇武宇驰汪小帆
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1