一种基于预处理层与深度强化学习的机器人导航方法技术

技术编号:21342655 阅读:40 留言:0更新日期:2019-06-13 22:10
本发明专利技术涉及一种基于预处理层与深度强化学习的机器人导航方法,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现实环境中设置现实预处理层;通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。本发明专利技术解决基于深度强化学习的导航算法从虚拟环境迁移至现实环境的泛化性能差的问题,将预处理层与深度强化学习结合,通过预处理层与深度强化学习接收环境信息并输出正确的动作,进而使搭载上述方法的机器人获得导航能力,并具有很强的从虚拟环境迁移至现实环境的能力,可应用于机器人导航领域。

A Robot Navigation Method Based on Preprocessing Layer and Deep Reinforcement Learning

The present invention relates to a robot navigation method based on pre-processing layer and deep reinforcement learning. The method is to set up virtual pre-processing layer in the virtual training environment and real pre-processing layer in the real environment. The information with the same meaning is output through the real pre-processing layer and virtual pre-processing layer, and the results of deep reinforcement learning in the virtual training environment are transplanted to the virtual training environment. In the real environment of the robot navigation system, to achieve navigation. The invention solves the problem of poor generalization performance of navigation algorithm based on deep reinforcement learning, which migrates from virtual environment to real environment, combines pre-processing layer with deep reinforcement learning, receives environmental information and outputs correct actions through pre-processing layer and deep reinforcement learning, thereby enabling the robot carrying the above method to acquire navigation ability, and has strong migration from virtual environment. The ability to reach the real environment can be applied to the field of robot navigation.

【技术实现步骤摘要】
一种基于预处理层与深度强化学习的机器人导航方法
本专利技术涉及机器人导航
,尤其涉及一种基于预处理层与深度强化学习的机器人导航方法。
技术介绍
在过去的二十年中,机器人的身影在许多人类活动中变得越来越常见,占据越来越重要的地位。然而,由于环境的复杂和不可预测,大部分机器人是通过手动或半自动操作实现其导航。虽然为应对不可预见的环境情况提供了可能性。但需要人类来理解传感器获得的感知数据并做出决策驱动机器人。因此,移动机器人需要具有更高水平的智能和自主性的导航系统,以允许其在复杂环境中自主做出最佳决策。在深度强化学习中,机器人通过与环境的交互,即通过在环境中执行动作同时接收奖励,促进完成任务目标就给予正反馈,否则给予负反馈,并且不停的重复这一过程来进行训练,其训练目标是为了能在当前环境下,选择出能得到最大化奖励的动作。虽然一些论文显示了在真实机器人中使用深度强化学习进行导航能力训练的可行性,但这种方法的成本非常的大,因为在物理空间中运行机器人系统进行训练是非常耗时的,需要数十万次执行任务的数据集和几个月的时间。因此科学家们经常利用虚拟环境训练代替真实环境训练。使用虚拟环境训练平台的主要步骤是在虚拟环境中训练真实机器人的虚拟模型,直到学习到其所需的能力,然后将知识迁移至真实环境中的真实机器人身上。但上述基于深度强化学习模型的导航系统有一个致命的问题,即机器人训练完毕后,在虚拟环境中具有一定的导航能力。但在将虚拟环境中的训练完成好的导航算法迁移至现实环境中时,由于虚拟环境与现实环境差别过大,会使机器人的导航性能急剧下降。也会出现如图4所示的由于虚拟环境与现实环境差别过大(其灰度值矩阵差别过大),深度强化学习在移植至现实环境中时,获得的现实环境的环境信息与虚拟环境有着非常大的差异,更会出现图5所示的使深度强化学习的性能下降至一个非常严重的地步,阻止了深度强化学习的迁移性能与在现实环境中的实用性。
技术实现思路
针对现有技术中存在的缺陷或不足,本专利技术提供一种基于预处理层与深度强化学习的机器人导航方法解决基于深度强化学习的导航算法从虚拟环境迁移至现实环境的泛化性能差的问题,将预处理层与深度强化学习结合,通过预处理层与深度强化学习接收环境信息并输出正确的动作,进而使搭载上述方法的机器人获得导航能力,并具有很强的从虚拟环境迁移至现实环境的能力,可应用于机器人导航领域。为了实现上述目的,本专利技术采取的技术方案为提供一种基于预处理层与深度强化学习的机器人导航方法,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现实环境中设置现实预处理层;通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。作为本专利技术的进一步改进,该方法包括如下步骤:S100,构建虚拟训练环境;S200,在构建的虚拟训练环境中训练;S300,构建现实环境;S400,在现实环境中机器人执行导航过程。作为本专利技术的进一步改进,所述步骤S100中构建虚拟训练环境,包括如下步骤:S101,搭建至少包含导航目标、障碍物以及搭载虚拟传感器的虚拟机器人所在的虚拟环境;S102,根据虚拟环境中的导航目标和障碍物的场景设计虚拟预处理层,用于提取视野中每个物体的类别信息、占据面积大小信息以及左右位置信息;S103,根据虚拟预处理层提取并输出的信息结合机器人的运动机构,设计深度强化学习框架;所述步骤S200中构建虚拟训练环境,包括如下步骤:S201,虚拟预处理层从虚拟传感器获得的环境图片中提取出每个物体包含物体类别、占据面积大小、左右位置的信息,送至深度强化学习;S202,根据目标与障碍物的面积进行奖励的计算,判断任务完成情况,输出任务完成或任务失败信号,送至深度强化学习;S203,深度强化学习根据目标与障碍物信息输出动作,并结合奖励信息进行网络调优,从网络输出端到输入端进行梯度反向传播,循环至完成训练。作为本专利技术的进一步改进,在步骤S102中设计虚拟预处理层后,先对虚拟传感器拍摄的图片进行高斯滤波,再选取使图片中物体与背景分离的阈值T对滤波后的图片进行二值化处理;其中,对虚拟传感器拍摄的图片进行高斯滤波,通过如下公式实现:其中,(x,y)分别表示当前的像素点坐标值,σ表示像素点的方差;对滤波后的图片通过如下公式:进行二值化处理。作为本专利技术的进一步改进,在步骤S300构建现实环境时,将在虚拟训练环境中训练完成的深度强化学习权重信息移植至现实环境的深度强化学习中。作为本专利技术的进一步改进,深度强化学习中时,根据式h(x)=WTx+b和公式交叠前向反馈进行计算输出动作选项;其中,x表示每一层的输入,WT表示每一层的权重数值,b表示每一层的偏置,exp(x)表示对网络每一层作指数运算。作为本专利技术的进一步改进,深度强化学习调优中,利用公式L(θ)=Eπ[(r+γmaxQ(s’,a’;θ)-Q(s,a;θ))2]进行损失函数计算;再利用公式进行梯度反向传播更新网络参数;其中,Q(s,a;θ)表示动作值函数,表示在当前策略信息下,状态与动作代表的收益值,表示收益值函数对当前策略的梯度,用于反向传播更新策略。本专利技术的有益效果是1、本专利技术可以通过预处理层与深度强化学习接收环境信息并输出正确的动作,进而使搭载上述方法的机器人获得导航能力。同时具有很强的从虚拟环境迁移至现实环境的能力。可应用于机器人导航领域。针对在无环境地图的情况下基于视觉对指定目标进行有效导航与避障上述问题以及解决基于深度强化学习的导航算法从虚拟环境迁移至现实环境的泛化性能差的问题。2、本专利技术中在虚拟环境训练过程中,预处理层接收机器人传感器获取的环境图片,提取目标与障碍信息、奖励信息以及是否完成任务信息。深度强化学习部分接收信息后输出将执行的动作,虚拟机器人在虚拟环境中执行动作。同时深度强化学习根据奖励信息进行训练,最后能选择出得到最大化奖励的动作。虚拟机器人搭载上述方法通过在计算机软件中的虚拟的室内环境中的不断训练,直至在虚拟环境中获得导航能力。在现实环境执行过程中,将虚拟环境的预处理层替换为针对现实环境设计的预处理层,再将深度强化学习移植至现实环境的机器人导航系统上。由于针对现实环境设计的预处理层可以有效输出与具有相同意义的虚拟环境信息相同的信息,故深度强化学习可以具有优良的从虚拟环境迁移至现实环境的迁移性能,实现现实环境中机器人的导航性能。附图说明图1为预处理层与深度强化学习方法结构。图2为本专利技术的导航方法的流程图。图3为本专利技术的虚拟训练环境示意图。图4为虚拟环境图像与现实环境图像的灰度矩阵图。图5为传统深度强化学习从虚拟环境迁移到现实环境示意图。图6为预处理层与深度强化学习从虚拟环境迁移到现实环境示意图。图7为预处理层处理图片示意图。图8为虚拟环境图像经过预处理层处理后的目标与障碍物信息与奖励信息。图9虚拟环境下深度强化学习训练完成后,机器人执行一次任务过程。图10为实施例2的预处理层与深度强化学习在虚拟环境中导航任务训练过程收敛步数,横坐标是训练回合,纵坐标是执行一次任务所需的步数。图11为实施例2的预处理层与深度强化学习在现实环境中执行导航任务步数,横坐标是执行任务回合,纵坐标是执行一次任务所需的步数。图12为实施例2的导航过程示本文档来自技高网
...

【技术保护点】
1.一种基于预处理层与深度强化学习的机器人导航方法,其特征在于,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现实环境中设置现实预处理层;通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。

【技术特征摘要】
1.一种基于预处理层与深度强化学习的机器人导航方法,其特征在于,该方法是在构建的虚拟训练环境中设置虚拟预处理层,在现实环境中设置现实预处理层;通过现实预处理层与虚拟预处理层输出具有相同意义的信息,将在虚拟训练环境中的深度强化学习结果移植至现实环境中的机器人导航系统上,实现导航。2.根据权利要求1的基于预处理层与深度强化学习的机器人导航方法,其特征在于,该方法包括如下步骤:S100,构建虚拟训练环境;S200,在构建的虚拟训练环境中进行训练;S300,构建现实环境;S400,在现实环境中机器人执行导航过程。3.根据权利要求2的基于预处理层与深度强化学习的机器人导航方法,其特征在于,所述步骤S100中构建虚拟训练环境,包括如下步骤:S101,搭建至少包含导航目标、障碍物以及搭载虚拟传感器的虚拟机器人所在的虚拟环境;S102,根据虚拟环境中的导航目标和障碍物的场景设计虚拟预处理层,用于提取视野中每个物体的类别信息、占据面积大小信息以及左右位置信息;S103,根据虚拟预处理层提取并输出的信息结合机器人的运动机构,设计深度强化学习框架;所述步骤S200在构建的虚拟训练环境中进行训练,是指在构建的虚拟训练环境中,对虚拟机器人模型中的深度强化学习进行训练,输出信息供虚拟机器人执行,其过程包括如下步骤:S201,虚拟预处理层从虚拟传感器获得的环境图片中提取出每个物体的物体类别、占据面积大小和左右位置的信息,送至深度强化学习;S202,根据目标与障碍物的面积进行奖励的计算,判断任务完成情况,输出任务完成或任务失败信号,送至深度强化学习;S203,深度强化学习根据目标与障碍物信息输出动作...

【专利技术属性】
技术研发人员:许杰雄于刚黄思静张畅帅凯鹏蒋境伟
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1