当前位置: 首页 > 专利查询>清华大学专利>正文

一种陆空两栖无人车自动模态切换与地面避障的训练方法技术

技术编号:36702054 阅读:17 留言:0更新日期:2023-03-01 09:19
本发明专利技术提出了一种陆空两栖无人车自动模态切换与地面避障的训练方法,该方法包括:步骤1)基于Gazebo仿真器构建训练场景;步骤2)基于机器学习强化学习原理,将路空两栖无人车在训练场景中获取的感知信息输入决策神经网络,采用∈贪婪方法与好奇心驱动结合的策略规划行进轨迹及切换运动模态,将动作指令传入Gazebo仿真器指挥无人车运动;步骤3)将运动相关数据存入经验池,基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化;转至步骤2)直至无人车触发终止条件或满足预设的训练步长,则终止一个训练周期;步骤4)当未达到训练周期总数,转至步骤1)开始一个新的训练周期,否则得到训练好的决策神经网络。络。络。

【技术实现步骤摘要】
一种陆空两栖无人车自动模态切换与地面避障的训练方法


[0001]本专利技术属于智能驾驶
,涉及多模态载具行进间运动模态自动切换问题,尤其涉及一种陆空两栖无人车自动模态切换与地面避障的训练方法。

技术介绍

[0002]随着立体交通的推广,以及现有地面行驶载具因其地面驾驶属性无法从根本上解决交通运输中拥堵问题,陆空两栖车应运而生。陆空两栖车是一种包含飞行和地面行驶两种运动模态的载具,可依据安全性,行进稳定性,能耗等因素切换行进模态,但是受到多种因素制约,例如模态切换可靠性较低,存在模态切换不合理,安全性不足等问题。
[0003]由于强化学习基于机器学习原理,并遵循马尔可夫决策过程,因此需要大量的数据支持决策器中神经网络的训练和多模态切换策略的优化。传统的数据采集方式往往需要驾驶员在现实的环境中驾驶车辆,通过传感器收集训练所需数据,这种采集方式需要耗费大量的时间和人力资源,方可采集足以支撑训练的数据。而驾驶员的人为干预,同样会导致被采集的数据有较强的局限性,对极端情况的覆盖率较低。

技术实现思路

[0004]本专利技术的目的在于克服现有技术缺陷,提出了一种陆空两栖无人车自动模态切换与地面避障的训练方法。本申请基于人工智能方式自动切换两栖车行进模态同时兼顾地面行驶自动避障的方法。由于决策模型的稳定性和合理性是目前两栖载具自动切换模态的主要障碍,基于机器学习的强化学习方法为该问题提供了有效的解决方案。换言之,基于强化学习的人工智能模态切换器可以依据当前环境,自适应地自动选择有利的行进模态。基于仿真环境的数据采集方式可以快速提供充足且优质的数据,短时间产生成熟的模态切换策略。
[0005]为了实现上述目的,本专利技术提出了一种陆空两栖无人车自动模态切换与地面避障的训练方法,所述方法包括:
[0006]步骤1)基于Gazebo仿真器构建包括路空两栖无人车、障碍物锥筒和墙体的训练场景;
[0007]步骤2)基于机器学习强化学习原理,将路空两栖无人车在训练场景中获取的当前时刻感知信息输入决策神经网络,采用∈贪婪方法与好奇心驱动方法相结合的策略规划行进轨迹并判断是否需要切换运动模态,将动作指令传入Gazebo仿真器,指挥Gazebo仿真器中的路空两栖无人车进行运动;
[0008]步骤3)将每一步的运动相关数据存入经验池,基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化;转至步骤2),直至路空两栖无人车触发终止条件或满足预设的训练步长,则终止一个训练周期;
[0009]步骤4)当未满足预设的训练周期总数,转至步骤1)开始一个新的训练周期,否则得到训练好的决策神经网络。
[0010]作为上述方法的一种改进,所述步骤1)包括:
[0011]随机生成若干个障碍物锥筒,其随机分布于设定长宽尺寸的墙体长方形区域内;
[0012]设定陆空两栖无人车运动的固定起点和固定终点;
[0013]设定陆空两栖无人车的运动范围不可超出墙体长方形区域,行进过程中,可自由切换飞行和地面行驶两种运动模态,当与障碍物锥筒或墙体发生碰撞则判定失败。
[0014]作为上述方法的一种改进,所述陆空两栖无人车的运动动作包括七种有效动作,在地面行驶模态下,动作[0,1,2,3,4,5]为有效动作,在飞行模态下,动作[5,6]为有效动作,其中,
[0015]动作[0]为按设定的轮转线速度直行;
[0016]动作[1]包括设定的轮转线速度,轮转角速度为第一轮转速度,方向向右;
[0017]动作[2]包括设定的轮转线速度,轮转角速度为第二轮转速度,方向向右;
[0018]动作[3]包括设定的轮转线速度,轮转角速度为第一轮转速度,方向向左;
[0019]动作[4]包括设定的轮转线速度,轮转角速度为第二轮转速度,方向向左;
[0020]动作[5]为旋翼转动提供起飞或前向飞行所需升力;
[0021]动作[6]为旋翼转速减慢,无人车稳定降落。
[0022]作为上述方法的一种改进,所述路空两栖无人车包括激光雷达和高度计,用于在训练场景中获取包括二维图像和高度信息的感知信息。
[0023]作为上述方法的一种改进,所述决策神经网络为DDQN网络,输入为二维图像和高度信息,输出为动作价值函数Q值,所述决策神经网络包括三层卷积神经网络、两个并联的四层全连接层以及加和函数;具体处理过程包括:
[0024]三层卷积神经网络对输入的二维图像进行图像信息处理,将卷积神经网络的输出堆积成为一维向量后,分两路分别与高度信息进行向量的拼接后,作为两个全连接层的输入,经过四层全连接层,再经过加和函数输出相应的动作价值函数Q值:Q(s
t
,a
t
;θ
t
),其中,
[0025]s
t
为t时刻陆空两栖无人车的状态值,a
t
为t时刻陆空两栖无人车的运动动作,θ
t
为当前决策神经网络的参数。
[0026]作为上述方法的一种改进,所述步骤2)的∈贪婪方法包括:
[0027]对动作价值函数Q值进行范围为(0,1)之间的均匀抽样,如果抽样数值小于设定的epsilon数值,以随机抽样方式选择动作,如果抽样数值大于设定的epsilon数值,则选择动作概率分布中最大概率对应的动作。
[0028]作为上述方法的一种改进,所述步骤2)的好奇心驱动方法包括:
[0029]输入当前状态s
t
得到相应的动作a
t
,并将当前动作输入环境,得到下一时刻状态s
t+1

[0030]通过预先建立的特征提取网络,得到特征f
t+1
,将f
t+1
和a
t
同时输入到正向预测生成网络中,得到预测的特征值f

t+1

[0031]通过对f
t+1
和f

t+1
做差的方式得到内在激励奖励函数
[0032]采用均方损失函数构造f
t+1
和f

t+1
的损失函数,并通过预测优化器不断优化正向预测生成网络,使预测更加准确。
[0033]作为上述方法的一种改进,所述通过对f
t+1
和f

t+1
做差的方式得到内在激励奖励
函数具体包括:
[0034]当地面行驶模态沿x轴每前进1m,
[0035]当地面行驶模态沿x轴每后退1m,
[0036]当每偏离中心线1m,
[0037]当每一次起飞,
[0038]当每一次降落,
[0039]当飞行模态下每训练步长,
[0040]当地面模态下每训练步长,
[0041]当发生碰撞,
[0042]当到达终点,
[0043]作为上述方法的一种改进,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述方法包括:步骤1)基于Gazebo仿真器构建包括路空两栖无人车、障碍物锥筒和墙体的训练场景;步骤2)基于机器学习强化学习原理,将路空两栖无人车在训练场景中获取的当前时刻感知信息输入决策神经网络,采用∈贪婪方法与好奇心驱动方法相结合的策略规划行进轨迹并判断是否需要切换运动模态,将动作指令传入Gazebo仿真器,指挥Gazebo仿真器中的路空两栖无人车运动;步骤3)将每一步的运动相关数据存入经验池,基于n步时序差分法从经验池中随机抽取若干组数据对决策神经网络进行优化;转至步骤2),直至路空两栖无人车触发终止条件或满足预设的训练步长,则终止一个训练周期;步骤4)当未达到预设的训练周期总数,转至步骤1)开始一个新的训练周期,否则得到训练好的决策神经网络。2.根据权利要求1所述的陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述步骤1)包括:随机生成若干个障碍物锥筒,其随机分布于设定长宽尺寸的墙体长方形区域内;设定陆空两栖无人车运动的固定起点和固定终点;设定陆空两栖无人车的运动范围不可超出墙体长方形区域,行进过程中,可自由切换飞行和地面行驶两种运动模态,当与障碍物锥筒或墙体发生碰撞则判定失败。3.根据权利要求2所述的陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述陆空两栖无人车的运动动作包括七种有效动作,在地面行驶模态下,动作[0,1,2,3,4,5]为有效动作,在飞行模态下,动作[5,6]为有效动作,其中,动作[0]为按设定的轮转线速度直行;动作[1]包括设定的轮转线速度,轮转角速度为第一轮转速度,方向向右;动作[2]包括设定的轮转线速度,轮转角速度为第二轮转速度,方向向右;动作[3]包括设定的轮转线速度,轮转角速度为第一轮转速度,方向向左;动作[4]包括设定的轮转线速度,轮转角速度为第二轮转速度,方向向左;动作[5]为旋翼转动提供起飞或前向飞行所需升力;动作[6]为旋翼转速减慢,无人车稳定降落。4.根据权利要求2所述的陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述路空两栖无人车设置激光雷达和高度计,用于在训练场景中获取包括二维图像和高度信息的感知信息。5.根据权利要求4所述的陆空两栖无人车自动模态切换与地面避障的训练方法,其特征在于,所述决策神经网络为DDQN网络,输入为二维图像和高度信息,输出为动作价值函数Q值,所述决策神经网络包括三层卷积神经网络、两个并联的四层全连接层以及加和函数;具体处理过程包括:三层卷积神经网络对输入的二维图像进行图像信息处理,将卷积神经网络的输出堆积成为一维向量后,分两路分别与高度信息进行向量的拼接后,作为两个全连接层的输入,经过四层全连接层,再经过加和函数输出相应的动作价值函数Q值:Q(s
t
,a
t
;θ
t
),其中,s
t
为t时刻陆空两栖无人车的状态值,a
t
为t时刻陆空两栖无人车的运动动作,θ
t
为当前
决策神经网络的参数。6.根据...

【专利技术属性】
技术研发人员:张新钰刘华平黄健耕黄康尧吴新刚邓富强
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1