【技术实现步骤摘要】
一种基于虚拟环境和强化学习的多传感器机器人导航方法
本专利技术属于机器人
,特别涉及一种基于虚拟环境和强化学习的多传感器机器人导航方法。
技术介绍
随着科技的不断进步和智能化的不断发展,机器人得到越来越多的应用,更多地参与到了日常的生产生活中,用以协助或者替代人力。在机器人
当中,机器人自主导航技术尤为不可或缺,是移动机器人的核心技术之一,其目的是在无碰撞、无人为参与及其它指导的情况下,高效率到达目标点。当前自主导航机器人多依赖地图创建和地图规划,或是传统的基于传感器融合进行导航,前者耗时较多,后者往往基于传感器进行的复杂逻辑判断。
技术实现思路
为了解决现有技术中机器人导航过程中算法过于复杂和学习网络在训练中耗时过长的问题,提出了一种基于虚拟环境和强化学习的多传感器机器人导航方法。一种基于虚拟环境和强化学习的多传感器机器人导航方法,所述方法包括以下步骤:S1、构建虚拟环境,所述虚拟环境中包括多传感器机器人和障碍物,所述多传感器机器人至少包括雷达、摄像头、罗盘及测速码盘四个传感器;S2、获取所述多传感器机器人运动中的各传感器数据,并将所述传感器数据输入至强 ...
【技术保护点】
1.一种基于虚拟环境和强化学习的多传感器机器人导航方法,其特征在于,所述方法包括以下步骤:S1、构建虚拟环境,所述虚拟环境中包括多传感器机器人和障碍物,所述多传感器机器人至少包括雷达、摄像头、罗盘及测速码盘四个传感器;S2、获取所述多传感器机器人运动中的各传感器数据,并将所述传感器数据输入至强化学习模型中进行训练,其中,所述强化学习模型包括值网络和目标网络;S3、计算奖励函数,并根据所述奖励函数、值网络和目标网络的输出对所述值网络中的参数进行更新,当值函数更新达到预设步数时,将所述值网络的参数复制到所述目标网络中,对目标网络中的参数进行更新。
【技术特征摘要】
1.一种基于虚拟环境和强化学习的多传感器机器人导航方法,其特征在于,所述方法包括以下步骤:S1、构建虚拟环境,所述虚拟环境中包括多传感器机器人和障碍物,所述多传感器机器人至少包括雷达、摄像头、罗盘及测速码盘四个传感器;S2、获取所述多传感器机器人运动中的各传感器数据,并将所述传感器数据输入至强化学习模型中进行训练,其中,所述强化学习模型包括值网络和目标网络;S3、计算奖励函数,并根据所述奖励函数、值网络和目标网络的输出对所述值网络中的参数进行更新,当值函数更新达到预设步数时,将所述值网络的参数复制到所述目标网络中,对目标网络中的参数进行更新。2.如权利要求1所述的基于虚拟环境和强化学习的多传感器机器人导航方法,其特征在于,所述步骤1包括:基于ROS和Gazebo构建虚拟环境,所述虚拟环境中包括可设置自身参数的障碍物和根据实体机器人等比例建模的饿仿真机器人。3.如权利要求1所述的基于虚拟环境和强化学习的多传感器机器人导航方法,其特征在于,所述强化学习模型包括:所述强化学习模型包括网络大小一样、参数一样的值网络和目标网络,所述值网络和目标网络包括图像子网络、非图像子网络和输出层。4.如权利要求3所述的基于虚拟环境和强化学习的多传感器机器人导航方法,其特征在于,所述图像子网络包括三层卷积层和一层全连接层;所述非图像子网络包括两层全连接层;所述输出层与所述图像子网络和非图像子网络之间设有一层全连接层。5.如权利要求4所述的基于虚拟环境和强化学习的多传感器机器人导航方法,其特征在于,所述步骤S2包括:获取所述多传感器机器人运动中传感...
【专利技术属性】
技术研发人员:俸东升,叶茂,徐培,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。