基于自适应熵值的移动机器人无地图导航方法及系统技术方案

技术编号:42060312 阅读:29 留言:0更新日期:2024-07-19 16:45
本公开涉及基于自适应熵值的移动机器人无地图导航方法及系统,包括:获取考虑局部最优区域的移动机器人场景环境信息;采用深度强化学习算法,使得移动机器人与场景环境信息进行交互,获得多个五元组;构建包括Actor网络、Value网络和Critic网络的深度学习网络架构,根据多个五元组中移动机器人所获奖励,采用局部最优判定机制判定移动机器人是否陷入局部最优,根据判定结果进行自适应熵值调节机制计算,进一步更新多个五元组中的温度系数,以新的五元组对Actor网络、Value网络和Critic网络进行训练;采用训练好的深度学习网络架构进行移动机器人导航。本公开方法可有效解决现有移动机器人无地图导航方法导航成功率低下的缺陷。

【技术实现步骤摘要】

本公开涉及移动机器人导航领域,尤其涉及基于自适应熵值的移动机器人无地图导航方法及系统


技术介绍

1、移动机器人需要依靠良好的导航技术完成货物搬运、设备运输以及环境信息收集等工作。在现有的二维导航方法中,传统的路径规划类方法具有原理简单、易于部署、过程可控等优点,但同时也存在依赖高精度地图和对传感器噪声较为敏感的缺点。此外,考虑到此类方法在场景元素变动时需要重新建图或更新地图所导致的地图综合维护成本高昂的弊端,移动机器人在场景元素频繁变动的导航任务中的应用因此遭到了限制。

2、相较之下,移动机器人无地图导航方法,尤其是近些年快速发展的基于机器学习理论的无地图导航方法则无需建立全局或局部地图模型,在仅依靠目标点与机器人自身传感器感知信息的前提下便可实时决策生成安全的导航动作以操控机器人完成规定的导航任务,此类方法相比于传统的基于地图模型的规划类方法更适用于处理场景元素频繁变动,且希望控制建图成本的导航任务。最新的基于机器学习理论的二维无地图导航方法通常基于深度强化学习(deep reinforcement learning,drl)理论进行构建,本文档来自技高网...

【技术保护点】

1.基于自适应熵值的移动机器人无地图导航方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述局部最优判定机制根据n个五元组中的移动机器人在最近n步所获奖励确定局部最优状态判定系数lot,局部最优状态判定系数lot>0表示移动机器人陷入局部最优区域,反之表示移动机器人未陷入局部最优区域,其计算方式为:

3.根据权利要求2所述的方法,其特征在于,所述根据判定结果进行自适应熵值调节机制计算包括,在得到局部最优状态判定系数lot后,通过将调节系数ηt与深度强化学习算法中的熵前温度系数α相乘得到新的温度系数α′,所述调节系数ηt表示为:

<...

【技术特征摘要】

1.基于自适应熵值的移动机器人无地图导航方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述局部最优判定机制根据n个五元组中的移动机器人在最近n步所获奖励确定局部最优状态判定系数lot,局部最优状态判定系数lot>0表示移动机器人陷入局部最优区域,反之表示移动机器人未陷入局部最优区域,其计算方式为:

3.根据权利要求2所述的方法,其特征在于,所述根据判定结果进行自适应熵值调节机制计算包括,在得到局部最优状态判定系数lot后,通过将调节系数ηt与深度强化学习算法中的熵前温度系数α相乘得到新的温度系数α′,所述调节系数ηt表示为:

4.根据权利要求1所述的方法,其特征在于,对actor网络进行训练过程中,所述actor网络的最优策略π*为:

5.根据权利要求1所述的方法,其特征在于,对所述actor网络进行训练,更新ac...

【专利技术属性】
技术研发人员:谢远龙李泓辰王书亭熊体凡胡倚铭
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1