一种工业仓储搬运机器人强化学习导航方法技术

技术编号：40096992 阅读：7 留言：0更新日期：2024-01-23 17:05

本发明专利技术提出了一种工业仓储搬运机器人强化学习导航方法，属于强化学习领域，根据训练环境制作动态仓储模型和仓储机器人模型，为解决仓储机器人在仿真环境下全局地图和局部地图问题，通过将全局地图和雷达图以二值化图片的堆叠形式作为强化学习算法的状态输入，可以将全局信息和局部信息融合输入神经网络中，构建PPO网络架构进行训练，相较于采用分层强化学习训练两个智能体简化了训练的复杂度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于强化学习领域，具体涉及到一种仓储搬运机器人强化学习导航方法。

技术介绍

0、技术背景

1、近年来，随着人工智能和机器人技术的发展，采用深度强化学习方法将神经网络应用于机器人控制领域逐渐取代传统控制方法。机器人强化学习赋予机器人类似于人类的判断能力，提高机器人对环境的理解能力，从而控制机器人执行正确的动作。在复杂的大型仓库环境中完成导航任务，为更好的解决机器人防止碰倒周围货物，必须采用更好的环境状态表示，提高机器人在复杂狭窄的环境下完成导航和避障。

2、对于在实际应用中，强化学习面临着许多挑战。首先，现实环境是动态变化的，若只是简单地利用已知的不变环境来计算导航路径，则难免会带来不理想的结果。传统强化学习导航采用分层强化学习方法，通过全局路径规划完成路径探索，将激光雷达输入一维距离数据作为强化学习网络状态输入，完成近距离避障。使得强化学习需要完成两个策略的训练，才能完成导航任务，传统方法存在全局路径规划和局部路径规划相关性的丢失。为了提高智能体对于全局导航和局部导航的相关性，本专利技术在一维雷达距离数据作为ppo算法状态输入的基础上引入雷达图和全局地图作为强化学习状态输入，非常适用于机器人在复杂可变环境中导航任务—雷达图引导的深度强化学习导航算法。

技术实现思路

1、本专利技术在于提高导航问题中全局导航和局部导航的相关性的问题，提供了一种全局地图和局部地图融合的仓储机器人强化学习导航方法。

2、为达到上述目的，本专利技术通过下述技术方案实现：

3、为实现强化学习算法在真实机器人上部署，将技术方案分为机器人solidworks建模、gazebo仓库仿真环境搭建、仿真环境的gym封装、雷达图引导的深度强化学习算法训练五个步骤：

4、步骤1，所述机器人solidworks建模为：在solidworks中设计一种适用于仓库环境下搬运货物的导航机器人，实现机器人在仿真环境中对环境数据的采集，用于强化学习模型的训练；

5、步骤2，所述gazebo仓库仿真环境搭建为：在gazebo仿真软件中设计所需的动态仓库环境，用于移动机器人在仿真环境中运动采集强化学习环境状态所需的数据，并通过ros2完成数据传输；

6、步骤3，所述仿真环境的gym封装为：设计适用于移动机器人在动态仓库环境下用于强化学习训练的gym封装，并在gym封装中设计所需的动作空间、状态空间、奖励函数；

7、步骤4，所述雷达图引导的深度强化学习算法训练为：在动态的仓库环境下使用雷达图引导的强化学习，随机的在仓储不同位置生成货物作为动态环境，将全局地图和雷达图堆叠作为ppo算法状态输入训练模型，ppo算法价值网络和策略网络通过卷积层、池化层、激活函数完成对图像降维，生成一维数据和状态其他一维数据合并通过具有相同网络结构的全连接层组成价值网络和策略。

8、进一步，所述步骤1中在solidworks设计一种适用于仓库环境下的导航机器人，实现机器人在仿真环境中对环境数据的采集，用于强化学习模型的训练，具体通过以下三步完成：

9、步骤1.1，在机器人设计中，机器人采用四轮的麦克拉姆轮，能够实现机器人在仓库环境中全向运动，机器人主体框架设计为长0.6米，宽0.5米的矩形结构，并将底层控制板，电源，pc主机放于主体框架中，框架使用悬挂结构，增加机器人结构稳定性；

10、步骤1.2，将激光雷达置于机器人底板上表面正中间，便于采集四周障碍物距离数据；

11、步骤1.3，将imu传感器置于机器人主体内部中间，用来获取里程计所需的位置信息。

12、进一步，所述步骤2中在gazebo仿真软件中设计所需的动态仓库环境，用于移动机器人在仿真环境中运动采集强化学习环境状态所需的数据，并通过ros2完成数据传输，具体通过以下四步完成：

13、步骤2.1，在gazebo仿真软件中设计强化学习所需的仓库环境和货物，仓库内部长14.65米，宽8.625米，仓库正中间两边存在两根长宽都为0.5米的柱子，仓库外存在一个长宽都为5米的平台，并在三边都放置平板，用于反射激光雷达的激光，并设计1.2米×0.75米装载货物的托盘，用于动态改变仓库环境；

14、步骤2.2，设计仓库中两个柱子正中间为(0,0)点，移动机器人的起始位置在仓库外平台上随机位置，在仓库的＝除道路所占位置外，其余格子正中间随机放置货物堆垛，在仓库中空余环境随机确定位置作为机器人导航目标点；

15、步骤2.3，利用机器人上板面配置的360°激光雷达获取环境中障碍物信息，并设置10hz采样频率，作为机器人在仿真中更新频率，通过机器人内部的imu获取里程计信息，将激光雷达信息和里程计信息用ros2的话题发布，经过算法处理后作为强化学习的状态输入。

16、步骤2.4，通过改变仿真时间与现实时间的比值，将仿真世界时间加快50倍，加快强化学习算法的训练。

17、进一步，所述步骤3中设计适用于移动机器人在动态仓库环境下用于强化学习训练的gym封装，并在gym封装中设计所需的动作空间、状态空间、奖励函数；具体通过以下四步完成：

18、步骤3.1，设计动作空间，全向移动的机器人采用连续动作，动作分为x轴线速度vx，y轴线速度vy，角速度表示w，通过状态输入ppo算法中获取得到动作，并将其发送到ros2的twist话题中使机器人在gazebo仿真环境中执行，与环境交互；

19、步骤3.2，通过机器人在gazebo中执行动作，获取的雷达数据和里程计数据，通过gym调用laser和imu话题获取；

20、步骤3.3，通过ros2获取的360束激光雷达数据，形成闭合区域，将闭合区域内使用白色表示，闭合区域外使用黑色表示，形成雷达图，将仓库环境中机器人道路和空余存放货物位置用白色表示，其余地方用黑色表示，形成全局地图，在局部地图和全局地图中使用黑色三角形表示机器人位置，用黑色圆形表示目标点，通过堆叠的方式作为强化学习图像状态输入，将机器人正方向与目标夹角和距离，机器人自身位置和上一步动作作为一维状态输入；

21、步骤3.4，在gym封装库中根据强化学习算法的碰撞、到达、每步运行状态设计奖励函数。

22、进一步，所述步骤4中的雷达图引导的深度强化学习算法训练为：在动态的仓库环境下使用雷达图引导的强化学习，随机的在仓储不同位置生成货物作为动态环境，将全局地图和雷达图堆叠作为ppo算法状态输入训练模型，ppo算法价值网络和策略网络通过卷积层、池化层、激活函数完成对图像降维，生成一维数据和状态其他一维数据合并通过具有相同网络结构的全连接层组成价值网络和策略，具体通过以下步骤完成：

23、步骤4.1，将初始化状态输入自定义的ppo算法中，获取当前步奖励和下一步状态；

24、步骤4.2，自定义的ppo算法动作空间线速度取值范围为-0.5m/s～0.5m/s，角速度取值范围为-2.0rad本文档来自技高网...

【技术保护点】

1.一种工业仓储搬运机器人强化学习导航方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种工业仓储搬运机器人导航机器人强化学习导航方法，其特征在于，所述步骤1中在SolidWorks设计一种适用于仓库环境下的导航机器人，实现机器人在仿真环境中对环境数据的采集，用于强化学习模型的训练，具体通过以下三步完成：

3.根据权利要求1所述的一种工业仓储搬运机器人导航机器人强化学习导航方法，其特征在于，所述步骤2中在Gazebo仿真软件中设计所需的动态仓库环境，用于移动机器人在仿真环境中运动采集强化学习环境状态所需的数据，并通过ROS2完成数据传输，具体通过以下四步完成：

4.根据权利要求1所述的一种工业仓储搬运机器人导航机器人强化学习导航方法，其特征在于，所述步骤3中设计适用于移动机器人在动态仓库环境下用于强化学习训练的Gym封装，并在Gym封装中设计所需的动作空间、状态空间、奖励函数；具体通过以下四步完成：

5.根据权利要求1所述的一种工业仓储搬运机器人导航机器人强化学习导航方法，其特征在于，所述步骤4中的雷达图引导的深度强化学习

...

【技术特征摘要】

1.一种工业仓储搬运机器人强化学习导航方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种工业仓储搬运机器人导航机器人强化学习导航方法，其特征在于，所述步骤1中在solidworks设计一种适用于仓库环境下的导航机器人，实现机器人在仿真环境中对环境数据的采集，用于强化学习模型的训练，具体通过以下三步完成：

3.根据权利要求1所述的一种工业仓储搬运机器人导航机器人强化学习导航方法，其特征在于，所述步骤2中在gazebo仿真软件中设计所需的动态仓库环境，用于移动机器人在仿真环境中运动采集强化学习环境状态所需的数据，并通过ros2完成数据传输，具体通过以下四步完成：

4.根据权利要求1所述的一种工业仓储搬运机器人导...

【专利技术属性】
技术研发人员：张凯松，谌海云，唐智轩，余鹏，
申请(专利权)人：西南石油大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人