当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于层次化和模块化学习的导航避障方法技术

技术编号:33736403 阅读:21 留言:0更新日期:2022-06-08 21:33
一种基于层次化和模块化学习的导航避障方法,包括:实时构建室内场景地图;基于移动机器人获取的视觉图像、实时构建的场景地图、导航目标图像,设计长期导航目标点生成模型,确定导航目标图像在实时构建的场景地图上的位置;确定基于深度强化学习框架的移动机器人导航避障模型,发布移动机器人导航到预测的长期目标点的速度指令;设计导航结束预测模型,在一定时间间隔后,判断导航是否结束,如果预测的导航并未结束,则重新以上导航目标点生成及导航决策的过程,直到导航结束。本申请解决了现有技术中在没有预设环境地图的情况下,难以安全绕过障碍物并高效导航到指定目标的问题,提高了移动机器人导航技术对复杂多变环境的适应性。适应性。适应性。

【技术实现步骤摘要】
一种基于层次化和模块化学习的导航避障方法


[0001]本专利技术涉及移动机器人导航
,特别涉及一种基于层次化和模块化学习的导航避障方法。

技术介绍

[0002]在高度复杂、非结构化环境中的目标图像驱动的移动机器人导航是机器人智能导航领域的一个重要研究方向,将在抢险救灾、科学侦察、危险作业等诸多恶劣条件下有着广泛的应用前景。然而,这一研究需要在没有准确目标位置信息且只有导航目标图像的情况下,实现移动机器人安全、高效导航,极具挑战性。此外,如果导航目标图像所在位置离移动机器人较远,并且导航环境较拥挤,那么除了考虑导航策略,移动机器人还需要学习有效的环境探索策略和鲁棒的避障策略,这些考虑进一步增加了移动机器人智能导航的难度。
[0003]大多数现有的目标图像驱动的导航方法都使用端到端的学习方式来解决这个问题,这些方法将深度卷积神经网络(CNN)与强化学习(RL)相结合,建立视觉图像和导航运动之间的映射关系,通常在训练过程中表现出过度拟合的趋势,对于新的导航目标或环境,总是需要重新训练网络参数。此外,这些方法都是为合成的三维迷宫或者合成的室内场景设计的,距离用到复杂的实际场景中,还有很大的差距。也有一些研究将深度强化学习模型用到真实世界中,有些是基于低维的状态估计,有些是基于从现实场景中采集的大量数据学习的。然而,这些模型需要理想化的全球定位系统和运行时导航目标的具体位置信息。基于以上的方法,移动机器人总是在学习随机的探索策略,没有对周围环境布局的有效感知,需要大量的试错学习,严重限制了其在实际场景中的应用。<br/>[0004]针对移动机器人基于现有技术难以在非结构化动态实际场景中安全高效地实现目标图像驱动导航的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术针对现有技术中的不足,提供一种基于层次化和模块化学习的导航避障方法;解决了现有技术中难以安全高效地在非结构化动态实际场景中实现目标图像驱动导航的问题。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]一种基于层次化和模块化学习的导航避障方法,包括以下步骤:
[0008]S1:获取移动机器人上的激光雷达数据,构建实时场景地图m
T

[0009]S2:根据实时构建的场景地图m
T
,并基于移动机器人获取的视觉图像、导航目标图像设计导航目标点生成模型,预测确定导航目标图像在场景地图m
T
上的位置,即目标点的位置;具体包括:
[0010]S2.1:确定导航目标点生成模型的输入、输出及训练该模型过程中的奖励函数r
T

[0011]S2.2:构建导航目标点生成模型;
[0012]S2.3:训练导航目标点生成模型,并将训练好的导航目标点生成模型应用在移动
机器人导航过程中,以实现每经过一个时间间隔,输出一个导航的目标点,预测确定导航目标图像在实时构建的场景地图m
T
上的位置;
[0013]S3:构建基于深度强化学习框架的移动机器人导航避障模型,发布移动机器人导航至目标点的速度指令,使移动机器人行驶至预测的目标点位置;
[0014]S4:构建导航结束预测模型,判断导航是否结束;并根据判断结果执行对应操作,具体包括:
[0015]S4.1:确定导航结束预测模型的输入、输出;
[0016]S4.2:构建导航结束预测模型;
[0017]S4.3:训练导航结束预测模型,并将训练好的导航结束预测模型应用在移动机器人导航过程中,以实现每经过一个时间间隔,判断移动机器人是否已经到达目标点所在位置的附近,若移动机器人在目标点位置的附近,则结束导航,若移动机器人不在目标点位置的附近,则重新循环步骤S1

S4直至完成移动机器人的避障导航任务。
[0018]为优化上述技术方案,采取的具体措施还包括:
[0019]进一步地,步骤S1的具体内容为:基于激光雷达数据和Gmapping算法实时构建栅格式的场景地图m
T
,并对场景地图m
T
进行旋转平移变换,使移动机器人始终位于场景地图m
T
的中心位置;其中移动机器人的正向是场景地图m
T
的正东方向,且场景地图m
T
的每一个栅格代表实际场景大小的25cm2。
[0020]进一步地,步骤S2.1的具体内容为:
[0021]所述导航目标点生成模型的输入包括:视觉图像组成I
T
、实时构建的场景地图m
T
、导航目标图像组成I
g
;其中视觉图像组成I
T
是每隔一段时间由移动机器人上四个不同方位的视觉传感器获取的四张视觉图像,并将四张视觉图像沿横向依次堆叠形成一张平铺的组成图像;其中导航目标图像组成I
g
是由目标点四个方向的四张视觉图像沿横向依次堆叠形成一张平铺的组成图像;其中所述视觉图像组成I
T
的分辨率为512
×
128
×
3,所述导航目标图像组成I
g
的分辨率为512
×
128
×
3,所述场景地图m
T
的分辨率为240
×
240
×
1;
[0022]所述导航目标点生成模型的输出是g
T
:指所导航的目标点在场景地图m
T
上的坐标点;
[0023]所述奖励函数r
T
的具体计算公式为:r
T
=r
E
+r
ur
+r
g
;式中,r
E
表示移动机器人在导航过程中的奖励;r
ur
表示当预测的目标点是否在移动机器人可到达的区域的惩罚,当预测的目标点不在移动机器人可到达的区域内时,则r
ur


5,否则r
ur
=0;r
g
表示移动机器人是否在预测的目标点的附近,当移动机器人正好在预测的目标点的附近时,则r
g
=20,否则r
g
=0;
[0024]其中r
E
的计算公式为:式中,E(T)表示移动机器人在时间间隔T探索的区域的总面积;E(T+k)表示移动机器人在时间间隔T+k探索的区域的总面积;I
g
∈S(E(T))表示I
g
位于移动机器人已探索区域。
[0025]进一步地,步骤S2.2的具体内容为:
[0026]将视觉图像组成I
T
、导航目标图像组成I
g
输入进一个两流深暹罗网络,提取视觉图像组成I
T
、导航目标图像组成I
g
的特征并进行拼接,然后接入一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层次化和模块化学习的导航避障方法,其特征在于,包括以下步骤:S1:获取移动机器人上的激光雷达数据,构建实时场景地图m
T
;S2:根据实时构建的场景地图m
T
,并基于移动机器人获取的视觉图像、导航目标图像设计导航目标点生成模型,预测确定导航目标图像在场景地图m
T
上的位置,即目标点的位置;具体包括:S2.1:确定导航目标点生成模型的输入、输出及训练该模型过程中的奖励函数r
T
;S2.2:构建导航目标点生成模型;S2.3:训练导航目标点生成模型,并将训练好的导航目标点生成模型应用在移动机器人导航过程中,以实现每经过一个时间间隔,输出一个导航的目标点,预测确定导航目标图像在实时构建的场景地图m
T
上的位置;S3:构建基于深度强化学习框架的移动机器人导航避障模型,发布移动机器人导航至目标点的速度指令,使移动机器人行驶至预测的目标点位置;S4:构建导航结束预测模型,判断导航是否结束;并根据判断结果执行对应操作,具体包括:S4.1:确定导航结束预测模型的输入、输出;S4.2:构建导航结束预测模型;S4.3:训练导航结束预测模型,并将训练好的导航结束预测模型应用在移动机器人导航过程中,以实现每经过一个时间间隔,判断移动机器人是否已经到达目标点所在位置的附近,若移动机器人在目标点位置的附近,则结束导航,若移动机器人不在目标点位置的附近,则重新循环步骤S1

S4直至完成移动机器人的避障导航任务。2.根据权利要求1所述的一种基于层次化和模块化学习的导航避障方法,其特征在于,步骤S1的具体内容为:基于激光雷达数据和Gmapping算法实时构建栅格式的场景地图m
T
,并对场景地图m
T
进行旋转平移变换,使移动机器人始终位于场景地图m
T
的中心位置;其中移动机器人的正向是场景地图m
T
的正东方向,且场景地图m
T
的每一个栅格代表实际场景大小的25cm2。3.根据权利要求1所述的一种基于层次化和模块化学习的导航避障方法,其特征在于,步骤S2.1的具体内容为:所述导航目标点生成模型的输入包括:视觉图像组成I
T
、实时构建的场景地图m
T
、导航目标图像组成I
g
;其中视觉图像组成I
T
是每隔一段时间由移动机器人上四个不同方位的视觉传感器获取的四张视觉图像,并将四张视觉图像沿横向依次堆叠形成一张平铺的组成图像;其中导航目标图像组成I
g
是由目标点四个方向的四张视觉图像沿横向依次堆叠形成一张平铺的组成图像;其中所述视觉图像组成I
T
的分辨率为512
×
128
×
3,所述导航目标图像组成I
g
的分辨率为512
×
128
×
3,所述场景地图m
T
的分辨率为240
×
240
×
1;所述导航目标点生成模型的输出是g
T
:指所导航的目标点在场景地图m
T
上的坐标点;所述奖励函数r
T
的具体计算公式为:r
T
=r
E
+r
ur
+r
g
;式中,r
E
表示移动机器人在导航过程中的奖励;r
ur
表示当预测的目标点是否在移动机器人可到达的区域的惩罚,当预测的目标点不在移动机器人可到达的区域内时,则r
ur


5,否则r
ur
=0;r
g
表示移动机器人是否在预测的目标点的附近,当移动机器人正好在预测的目标点的附近时,则r
g
=20,否则r
g
=0;
其中r
E
的计算公式为:式中,E(T)表示移动机器人在时间间隔T探索的区域的总面积;E(T+k)表示移动机器人在时间间隔T+k探索的区域的总面积;I
g
∈S(E(T))表示I
g
位于移动机器人已探索区域。4.根据权利要求3所述的一种基于层次化和模块化学习的导航避障方法,其特征在于,步骤S2.2的具体内容为:将视觉图像组成I
T
、导航目标图像组成I
g
输入进一个两流深暹罗网络,提取视觉图像组成I
T
、导航目标图像组成I
g
的特征并进行拼接,然后接入一个两层感知器,生成一个256维的融合特征;其中,提取视觉图像组成I
T
、导航目标图像组成I
g
的特征利用的是两流深暹罗网络中的暹罗层作用,暹罗层主干是在ImageNet上预训练的ResNet

18分类网络,且ResNet

18分类网络的最后一层全连接层被截断处理,ResNet

18分类网络使分辨率为512
×
128
×
3的视觉图像组成I
T
或导航目标图像组成I
g
生成512维特征,所述两层感知器的第一层输出维度是512维,第二层输出维度是256维度;将实时构建的场景地图m
T
输入馈送到两流深暹罗网络中的...

【专利技术属性】
技术研发人员:孙长银吴巧云苏延旭
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1