一种基于多任务学习的机器人避障策略训练与部署方法技术

技术编号:38717010 阅读:33 留言:0更新日期:2023-09-08 14:59
一种基于多任务学习的机器人避障策略训练与部署方法,将机器人的避障情景下的任务分解为在仿真环境中进行避障和在真实环境中进行避障两个任务,并将伪激光雷达数据作为两个任务之间的共同数据形式,将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络,在仿真环境中直接采集伪激光雷达数据完成避障任务,在真实环境中引入传感器信息预处理任务作为辅助任务,通过室内物品数据集和伪激光雷达数据处理模块完成辅助任务,得到伪激光雷达数据后,利用共享隐藏层网络完成后续的避障动作;通过共享由伪激光雷达数据得到机器人动作策略的隐藏层网络得到两个任务之间的逻辑层次关系。本发明专利技术改善机器人在真实环境中的避障效果。效果。效果。

【技术实现步骤摘要】
一种基于多任务学习的机器人避障策略训练与部署方法


[0001]本专利技术涉及智能机器人导航领域,具体涉及基于多任务学习的机器人避障策略训练与部署方法。

技术介绍

[0002]对于各个领域的移动机器人来说,自主导航是移动机器人一项非常基本并且关键的能力。根据应用场景与导航目标,可以主要可以分为四种问题,分别是局部避障、室内导航、多机导航与社会导航。局部避障问题指的是在未知环境中,无碰撞地躲避障碍物并到达目标点的导航过程,作为其他三种问题的基础,逐渐成为研究热点。
[0003]常见的避障方式有两种,分别是基于地图的避障方式和无地图的避障方式。基于地图的避障方式中的算法较为成熟,但是需要得到全局先验地图,并且从一个环境换到另一个环境中后,常常需要重新调整算法参数,难以适应人流量大且复杂多变的环境。无地图避障导航是基于数据驱动的方式进行的端到端避障策略,使用神经网络拟合出从传感器的原始信息输入到机器人动作的映射关系,将传感器信息作为规划器的输入,动作信息作为规划器的输出,从而实现避障。其中,深度强化学习有效地将深度学习的表征能力与强化学习的决策本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的机器人避障策略训练与部署方法,其特征在于,将机器人避障情景下的任务分解为在仿真环境中进行避障和在真实环境中进行避障两个任务,并将伪激光雷达数据作为两个任务之间的共同数据形式,将由伪激光雷达数据得到动作策略的网络作为共享隐藏层网络,在仿真环境中直接采集伪激光雷达数据完成避障任务,在真实环境中引入传感器信息预处理任务作为辅助任务,通过室内物品数据集和伪激光雷达数据处理模块完成辅助任务,得到伪激光雷达数据后,利用共享隐藏层网络完成后续的避障动作;通过共享由伪激光雷达数据得到机器人动作策略的隐藏层网络得到两个任务之间的逻辑层次关系,从而完成机器人在实际环境中的避障任务。2.如权利要求1所述的基于多任务学习的机器人避障策略训练与部署方法,其特征在于,所述方法包括以下步骤:步骤1:完成仿真环境的建立,使用二维环境进行搭建,用于后续进行机器人避障策略的训练;步骤2:完成移动机器人决策模块的建立,利用深度强化学习算法,建立相应的神经网络模型,采用近端策略优化算法,根据奖励进行等价的优势函数计算,从而直接对选择行为的可能性进行调整;使用Actor

Critic架构,Critic网络负责估计状态价值函数,Actor网络负责输出动作概率,输出动作采用连续动作空间,PPO算法采用重要性采样,使用当前优化的策略和探索环境的策略之间的差距对损失函数进行校正,并通过预设参数对其进行限制;步骤3:搭载待训练的决策模块,将仿真小车放置在不同的仿真环境中进行训练,并且充分利用仿真环境可并行训练的优势,设置多种不同类型的环境,把仿真小车视作智能体,随机初始化智能体位置与导航目标点,之后智能体根据获取的信息进行相应动作,获取环境给予的对应奖励和新的传感器信息,从而完成一次与环境的交互,把交互数据存入经验回放池,重复如上过程直至到达目标点或与障碍物发生碰撞后,本轮交互结束,回到起点,进行下一轮交互;待经验回放池中的数据达到一定数量后,取出每次导航过程中的完整序列数据,首先计算状态价值和优势函数,以最大化Actor网络的动作输出的优势为目的,计算Actor网络的损失函数,并且使用梯度下降法更新网络参数,然后以最小化Critic网络的输出与折扣回报之间的差距为目的,计算Critic网络的损失函数,使用梯度下降法更新网络参数,之后使用新的网络参数输出动作,与环境继续交互,直至训练结束;训练完毕后,得到训练好的决策模块,在训练过程中,环境给予的奖励是人为进行设置的;步骤4:在真实环境中进行避障任务,将构建多传感器信息融合框架,把视觉信息和激光雷达信息转化为伪激光雷达信息的过程作为辅助任务进行单独训练,在小车上安装激光雷达与RGB

D视觉传感器,激光雷达与视觉传感器均安装在小车前方,将机器人放在真实场景中,对机器人施加目标点的导航指令,机器人的目标...

【专利技术属性】
技术研发人员:张建明姜朋徐韩朱骞夏钰婷
申请(专利权)人:浙江润琛科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1