The present invention relates to a robot navigation method based on pre-processing layer and deep reinforcement learning. The method is to set up virtual pre-processing layer in the virtual training environment and real pre-processing layer in the real environment. The information with the same meaning is output through the real pre-processing layer and virtual pre-processing layer, and the results of deep reinforcement learning in the virtual training environment are transplanted to the virtual training environment. In the real environment of the robot navigation system, to achieve navigation. The invention solves the problem of poor generalization performance of navigation algorithm based on deep reinforcement learning, which migrates from virtual environment to real environment, combines pre-processing layer with deep reinforcement learning, receives environmental information and outputs correct actions through pre-processing layer and deep reinforcement learning, thereby enabling the robot carrying the above method to acquire navigation ability, and has strong migration from virtual environment. The ability to reach the real environment can be applied to the field of robot navigation.
【技术实现步骤摘要】
一种基于预处理层与深度强化学习的机器人导航方法
本专利技术涉及机器人导航
,尤其涉及一种基于预处理层与深度强化学习的机器人导航方法。
技术介绍
在过去的二十年中,机器人的身影在许多人类活动中变得越来越常见,占据越来越重要的地位。然而,由于环境的复杂和不可预测,大部分机器人是通过手动或半自动操作实现其导航。虽然为应对不可预见的环境情况提供了可能性。但需要人类来理解传感器获得的感知数据并做出决策驱动机器人。因此,移动机器人需要具有更高水平的智能和自主性的导航系统,以允许其在复杂环境中自主做出最佳决策。在深度强化学习中,机器人通过与环境的交互,即通过在环境中执行动作同时接收奖励,促进完成任务目标就给予正反馈,否则给予负反馈,并且不停的重复这一过程来进行训练,其训练目标是为了能在当前环境下,选择出能得到最大化奖励的动作。虽然一些论文显示了在真实机器人中使用深度强化学习进行导航能力训练的可行性,但这种方法的成本非常的大,因为在物理空间中运行机器人系统进行训练是非常耗时的,需要数十万次执行任务的数据集和几个月的时间。因此科学家们经常利用虚拟环境训练代替真实环境训练。使用虚拟环境训练平台的主要步骤是在虚拟环境中训练真实机器人的虚拟模型,直到学习到其所需的能力,然后将知识迁移至真实环境中的真实机器人身上。但上述基于深度强化学习模型的导航系统有一个致命的问题,即机器人训练完毕后,在虚拟环境中具有一定的导航能力。但在将虚拟环境中的训练完成好的导航算法迁移至现实环境中时,由于虚拟环境与现实环境差别过大,会使机器人的导航性能急剧下降。也会出现如图4所示的由于虚拟环境与现实环 ...
【技术保护点】
1.一种基于预处理层与深度强化学习的机器人导航方法,其特征在于,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现实环境中设置现实预处理层;通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。
【技术特征摘要】
1.一种基于预处理层与深度强化学习的机器人导航方法,其特征在于,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现实环境中设置现实预处理层;通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。2.根据权利要求1的基于预处理层与深度强化学习的机器人导航方法,其特征在于,该方法包括如下步骤:S100,构建虚拟训练环境;S200,在构建的虚拟训练环境中进行训练;S300,构建现实环境;S400,在现实环境中机器人执行导航过程。3.根据权利要求2的基于预处理层与深度强化学习的机器人导航方法,其特征在于,所述步骤S100中构建虚拟训练环境,包括如下步骤:S101,搭建至少包含导航目标、障碍物以及搭载虚拟传感器的虚拟机器人所在的虚拟环境;S102,根据虚拟环境中的导航目标和障碍物的场景设计虚拟预处理层,用于提取视野中每个物体的类别信息、占据面积大小信息以及左右位置信息;S103,根据虚拟预处理层提取并输出的信息结合机器人的运动机构,设计深度强化学习框架;所述步骤S200在构建的虚拟训练环境中进行训练,是指在构建的虚拟训练环境中,对虚拟机器人模型中的深度强化学习进行训练,输出信息供虚拟机器人执行,其过程包括如下步骤:S201,虚拟预处理层从虚拟传感器获得的环境图片中提取出每个物体的物体类别、占据面积大小和左右位置的信息,送至深度强化学习;S202,根据目标与障碍物的面积进行奖励的计算,判断任务完成情况,输出任务完成或任务失败信号,送至深度强化学习;S203,深度强化学习根据目标与障碍物信息输出动作...
【专利技术属性】
技术研发人员:许杰雄,于刚,黄思静,张畅,帅凯鹏,蒋境伟,
申请(专利权)人:哈尔滨工业大学深圳,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。