强化学习网络训练方法及移动智能设备的运动控制方法技术

技术编号:41232720 阅读:24 留言:0更新日期:2024-05-09 23:48
本申请涉及机器学习技术领域,具体提供一种强化学习网络训练方法及移动智能设备的运动控制方法,旨在解决强化学习训练需要大量数据及环境适应能力差的问题。为此目的,本申请的强化学习网络训练方法包括:接收目标环境的第一地图图片以及预先设置的训练参数,基于第一地图图片和训练参数,构建多个第一虚拟环境,基于训练参数,分别获取用于在各个第一虚拟环境中对待训练的强化学习网络进行训练的第一交互数据,基于各个第一交互数据,对待训练的强化学习网络进行更新,直至待训练的强化学习网络收敛。本申请通过将第一地图图片转化为虚拟环境,并在该虚拟环境中对强化学习网络进行训练,无需人工介入,大大提高了训练部署效率及环境适应能力。

【技术实现步骤摘要】

本申请涉及机器学习,具体涉及一种强化学习网络训练方法及移动智能设备的运动控制方法


技术介绍

1、近年来,移动智能设备作为一种新形式的物联网设备正在迅速崛起,其被广泛应用于侦察、测量、救援和地图构建等实用功能中。导航能力是移动智能设备的一个基本问题,导航的一般目的是在二维(2d)或三维(3d)环境中识别从起点到目标点的最佳或次优路径,同时避开障碍物。

2、相关技术通常是将强化学习框架应用于导航问题中,该框架可以直接从原始传感器输入中学习导航策略,强化学习方法通过与环境的交互,找到将智能移动设备引导到目标位置的最优策略。然而,强化学习方法往往需要更多的数据来进行训练,其训练和推理阶段之间没有明确的边界(即训练缓慢过渡到推理阶段,没有明确的分离边界),为解决这一问题,另一种相关技术采用了离线训练和部署,即在模拟环境中训练网络,通过监督学习来训练移动智能设备走预先确定的路径,然而,当环境改变,原先训练完所得的策略将无法使用,这极大限制了机器人在多环境下的应用能力,而且,一旦环境发生变化后,智能移动设备原来的策略将无法应用至新环境,导致移动智能设备的适本文档来自技高网...

【技术保护点】

1.一种强化学习网络训练方法,其特征在于,包括:

2.根据权利要求1所述的强化学习网络训练方法,其特征在于,所述训练参数包括智能设备尺寸和地图尺寸,所述基于所述第一地图图片和所述训练参数,构建多个第一虚拟环境,包括:

3.根据权利要求2所述的强化学习网络训练方法,其特征在于,所述训练参数还包括第二障碍物的位置、预设数量、尺寸以及运动速度,所述分别计算各个所述第一障碍物之间的第一距离之前,还包括:

4.根据权利要求1所述的强化学习网络训练方法,其特征在于,所述训练参数还包括第一起点位置、第一终点位置、第一初始运动方向以及预设可执行动作集合,所述强化学习网...

【技术特征摘要】

1.一种强化学习网络训练方法,其特征在于,包括:

2.根据权利要求1所述的强化学习网络训练方法,其特征在于,所述训练参数包括智能设备尺寸和地图尺寸,所述基于所述第一地图图片和所述训练参数,构建多个第一虚拟环境,包括:

3.根据权利要求2所述的强化学习网络训练方法,其特征在于,所述训练参数还包括第二障碍物的位置、预设数量、尺寸以及运动速度,所述分别计算各个所述第一障碍物之间的第一距离之前,还包括:

4.根据权利要求1所述的强化学习网络训练方法,其特征在于,所述训练参数还包括第一起点位置、第一终点位置、第一初始运动方向以及预设可执行动作集合,所述强化学习网络包括训练完成的离线导航模块和避障模块以及待训练的在线导航模块,每个模块均包括动作策略网络,所述基于所述训练参数,分别获取用于在各个所述第一虚拟环境中对待训练的强化学习网络进行训练的第一交互数据,包括:

5.根据权利要求4所述的强化学习网络训练方法,其特征在于,所述在线导航模块还包括动作评价网络,所述基于各个所述第一交互数据,对待训练的强化学习...

【专利技术属性】
技术研发人员:斯白露张家志
申请(专利权)人:北京师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1