一种非结构场景的强化学习泊车路径规划方法及系统技术方案

技术编号:39807486 阅读:8 留言:0更新日期:2023-12-22 02:41
本发明专利技术提出了一种非结构场景的强化学习泊车路径规划方法及系统,通过变分自动编码器将非结构化障碍物地图编码成潜在特征向量,获取障碍物地图中隐藏的特征,然后将车辆自身状态信息和泊车位信息用向量表示,将三者连接构成状态向量,以混合

【技术实现步骤摘要】
一种非结构场景的强化学习泊车路径规划方法及系统


[0001]本专利技术涉及自动驾驶路径规划领域,具体涉及一种非结构场景的强化学习泊车路径规划方法及系统


技术介绍

[0002]自动泊车是实现自动驾驶汽车的关键一环

由于交通环境拥挤,停车位资源紧张,这种环境下泊车容易引起局部交通堵塞

剐蹭事故的发生;另一方面由于车辆和人均受自身条件影响而存在视觉盲区,泊车往往耗费大量的时间和精力

自动泊车的出现和发展为解决泊车问题提供新思路,实现高效稳定的自动泊车能够极大节省驾驶员的时间,充分利用停车位资源

自动泊车在模块化自动驾驶汽车中属于路径规划模块

自动泊车是低速场景的路径规划,虽然不像高速场景对实时性要求较高,但泊车场景一般较为狭窄,在自身车辆运动学约束和障碍物限制的情况下更难以规划出一条安全

最优的无碰撞路径

且目前大多数研究针对结构化停车场,非结构化场景由于缺乏导航信息和停车位的不规范,在规划路径时更加困难

[0003]经典泊车算法采用搜索和采样的规划,如
RRT、A*
搜索,并使用了考虑运动学约束的混合
A*
算法

经典算法能够处理典型的场景,但它们的计算复杂度与环境复杂度成正比,算法的响应时间可能会受到阻碍

在基于学习的路径规划模型中,强化学习通过与环境交互,并能记忆场景中的信息,而结合深度学习技术,通过拟合非线性神经网络,极大提高了可泛化性;深度强化学习已经在机器人导航控制取得了成功,但由于自动驾驶汽车自身运动学的约束,直接使用效果不佳;模仿学习根据专家数据集训练网络模型,但受到训练数据的限制,无法进行泛化;此外,深度强化学习训练时使用高维数据作为输入来检测和观察障碍物,这大大增加了整体训练时间,并使策略更难推广到不同的环境


技术实现思路

[0004]为了解决现有技术中存在的问题,本专利技术提供基于一种非结构泊车场景的模仿学习初始化的强化学习泊车路径规划方法及系统

首先使用混合
A*
算法生成专家策略,使用模仿学习从专家的演示快速训练网络模型,改善了强化学习训练缓慢且效率低下的问题,快速学习到专家策略;而强化学习的使用,则弥补了模仿学习专家数据集有限的问题,提升了模型应对未知和极端情况的能力;采用变分自动编码器获取障碍物图像特征向量,将训练数据转换为低维度数据,减少了模型训练时间,并提升了模型在不同环境的泛化能力

[0005]为了实现上述目的,本专利技术采用的技术方案:一种非结构场景的强化学习泊车路径规划方法,包括以下步骤:
[0006]构建非结构泊车场景,根据障碍物信息

车辆位置和目标停车位置构建非结构化泊车场景;将障碍物信息用像素图表示,将车辆位置和目标停车位置分别用向量表示;
[0007]使用混合
A*
算法生成对应场景下的专家泊车策略,将专家策略和泊车场景信息转换为模仿学习数据集,输入到模仿学习网络训练,得到车辆的泊车策略;
[0008]初始化
PPO
算法网络结构中的
Actor
网络,通过构建的非结构泊车场景训练网络模型,在多目标奖励函数作用下,基于
PPO
算法优化所述网络模型和泊车策略,得出泊车一系列路径点;
[0009]根据
PPO
算法网络输出的一系列路径点的距离变化和角度变化信息,在速度和曲率变化约束条件下进一步优化后得出车辆完整的泊车路径

[0010]进一步的,构建的非结构化泊车场景具体如下:
[0011]障碍物位置信息:将多个障碍物被表示为凹或者凸的多边形,并记录其坐标点信息
{(x1,
y1)

...

(x
n

y
n
)}
,每个障碍物多边形的顶点信息按逆时针方向记录;
[0012]车辆位置和目标停车位姿信息:给出车辆起始位置和目标停车位置的3个维度的信息,横纵坐标和朝向角:
{x

y

θ
}
,其中横纵坐标表示自动驾驶车辆后轴中心的位置

[0013]进一步的,使用混合
A*
算法生成对应场景下的专家泊车策略,将专家策略和泊车场景信息转换为模仿学习数据集,输入到模仿学习网络训练,得到车辆的泊车策略包括:首先根据所构建的泊车场景,使用混合
A*
算法生成一条从车辆起始位置到目标停车位置的一条符合车辆运动学的无碰撞路径,所述无碰撞路径的信息为包含一系列路径点的数组

[0014]进一步的,构建非结构泊车场景时,用变分自动编码器将高度复杂的泊车场景编码成一维特征向量,变分自动编码器包括编码器和解码器,编码器接收来自非结构化泊车场景中的障碍物像素图,通过4层卷积层和2层全连接层生成隐藏层的分布模型,经过采样输出障碍物特征向量,障碍物特征向量通过由2层全连接层和4层逆卷积层构成的解码器恢复原来的图像数据

[0015]进一步的,将泊车场景信息和专家策略转换为状态

动作对数据集时,状态是在某时刻
t
的障碍物特征向量,车辆位置和目标停车位姿信息向量,动作则是自动驾驶车辆在当前状态下需要执行的操作,在模仿学习网络训练过程中,输入一系列状态,输出对应状态的泊车策略;所述泊车策略包括前进直行

前进右转

前进左转

后退直行

后退右转

后退左转

[0016]进一步的,
PPO
算法网络结构包括
Actor
网络和
Critic
网络,
Actor
网络和
Critic
网络的输出不同,其余结构相同;输入为障碍物特征向量

车辆位置和目标停车位姿信息向量;车辆位置和目标停车位姿信息向量分别通过一个全连接网络扩充到大小与障碍物特征向量相同,然后障碍物特征向量

车辆位置和目标停车位姿信息向量拼接起来,得到拼接后的状态表示;
Actor
网络和
Critic
网络连接并经过3个全连接层输出,同时经过
Tanh()
函数激活,
Actor
网络最后经过
SoftMax
函数归一化输出泊车策略行为,
Critic
网络最后一层直接输出一个
value


[0017]基于上述方法的构思,提供一种非结构场景的强化学习泊车路径规划本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种非结构场景的强化学习泊车路径规划方法,其特征在于,包括以下步骤:构建非结构泊车场景,根据障碍物信息

车辆位置和目标停车位置构建非结构化泊车场景;将障碍物信息用像素图表示,将车辆位置和目标停车位置分别用向量表示;使用混合
A*
算法生成对应场景下的专家泊车策略,将专家策略和泊车场景信息转换为模仿学习数据集,输入到模仿学习网络训练,得到车辆的泊车策略;初始化
PPO
算法网络结构中的
Actor
网络,通过构建的非结构泊车场景训练网络模型,在多目标奖励函数作用下,基于
PPO
算法优化所述网络模型和泊车策略,得出泊车一系列路径点;根据
PPO
算法网络输出的一系列路径点的距离变化和角度变化信息,在速度和曲率变化约束条件下进一步优化后得出车辆完整的泊车路径
。2.
根据权利要求1所述的非结构场景的强化学习泊车路径规划方法,其特征在于,构建的非结构化泊车场景具体如下:障碍物位置信息:将多个障碍物被表示为凹或者凸的多边形,并记录其坐标点信息
{(x1,
y1)

...

(x
n

y
n
)}
,每个障碍物多边形的顶点信息按逆时针方向记录;车辆位置和目标停车位姿信息:给出车辆起始位置和目标停车位置的3个维度的信息,横纵坐标和朝向角:
{x

y

θ
}
,其中横纵坐标表示自动驾驶车辆后轴中心的位置
。3.
根据权利要求1所述的非结构场景的强化学习泊车路径规划方法,其特征在于,使用混合
A*
算法生成对应场景下的专家泊车策略,将专家策略和泊车场景信息转换为模仿学习数据集,输入到模仿学习网络训练,得到车辆的泊车策略包括:首先根据所构建的泊车场景,使用混合
A*
算法生成一条从车辆起始位置到目标停车位置的一条符合车辆运动学的无碰撞路径,所述无碰撞路径的信息为包含一系列路径点的数组
。4.
根据权利要求1所述的非结构场景的强化学习泊车路径规划方法,其特征在于,构建非结构泊车场景时,用变分自动编码器将高度复杂的泊车场景编码成一维特征向量,变分自动编码器包括编码器和解码器,编码器接收来自非结构化泊车场景中的障碍物像素图,通过4层卷积层和2层全连接层生成隐藏层的分布模型,经过采样输出障碍物特征向量,障碍物特征向量通过由2层全连接层和4层逆卷积层构成的解码器恢复原来的图像数据
。5.
根据权利要求1所述的非结构场景的强化学习泊车路径规划方法,其特征在于,将泊车场景信息和专家策略转换为状态

动作对数据集时,状态是在某时刻
t
的障碍物特征向量,车辆位置和目标停车位姿信息向量,动作则是自动驾驶车辆在当前状态下需要执行的操作,在模仿学习网络训练过程中,输入一系列状态,输出对应状态的泊车策略;所述泊车策略包括前进直行

前进右转...

【专利技术属性】
技术研发人员:陈仕韬邱卓史佳敏郑南宁王飞
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1