【技术实现步骤摘要】
一种非结构场景的强化学习泊车路径规划方法及系统
[0001]本专利技术涉及自动驾驶路径规划领域,具体涉及一种非结构场景的强化学习泊车路径规划方法及系统
。
技术介绍
[0002]自动泊车是实现自动驾驶汽车的关键一环
。
由于交通环境拥挤,停车位资源紧张,这种环境下泊车容易引起局部交通堵塞
、
剐蹭事故的发生;另一方面由于车辆和人均受自身条件影响而存在视觉盲区,泊车往往耗费大量的时间和精力
。
自动泊车的出现和发展为解决泊车问题提供新思路,实现高效稳定的自动泊车能够极大节省驾驶员的时间,充分利用停车位资源
。
自动泊车在模块化自动驾驶汽车中属于路径规划模块
。
自动泊车是低速场景的路径规划,虽然不像高速场景对实时性要求较高,但泊车场景一般较为狭窄,在自身车辆运动学约束和障碍物限制的情况下更难以规划出一条安全
、
最优的无碰撞路径
。
且目前大多数研究针对结构化停车场,非结构化场景由于缺乏导航信息和停车位的不规范,在规划路径时更加困难
。
[0003]经典泊车算法采用搜索和采样的规划,如
RRT、A*
搜索,并使用了考虑运动学约束的混合
A*
算法
。
经典算法能够处理典型的场景,但它们的计算复杂度与环境复杂度成正比,算法的响应时间可能会受到阻碍
。
在基于学习的路径规划模型中,强化学习通过与环境交互,并能记忆场景中的信息, ...
【技术保护点】
【技术特征摘要】
1.
一种非结构场景的强化学习泊车路径规划方法,其特征在于,包括以下步骤:构建非结构泊车场景,根据障碍物信息
、
车辆位置和目标停车位置构建非结构化泊车场景;将障碍物信息用像素图表示,将车辆位置和目标停车位置分别用向量表示;使用混合
A*
算法生成对应场景下的专家泊车策略,将专家策略和泊车场景信息转换为模仿学习数据集,输入到模仿学习网络训练,得到车辆的泊车策略;初始化
PPO
算法网络结构中的
Actor
网络,通过构建的非结构泊车场景训练网络模型,在多目标奖励函数作用下,基于
PPO
算法优化所述网络模型和泊车策略,得出泊车一系列路径点;根据
PPO
算法网络输出的一系列路径点的距离变化和角度变化信息,在速度和曲率变化约束条件下进一步优化后得出车辆完整的泊车路径
。2.
根据权利要求1所述的非结构场景的强化学习泊车路径规划方法,其特征在于,构建的非结构化泊车场景具体如下:障碍物位置信息:将多个障碍物被表示为凹或者凸的多边形,并记录其坐标点信息
{(x1,
y1)
,
...
,
(x
n
,
y
n
)}
,每个障碍物多边形的顶点信息按逆时针方向记录;车辆位置和目标停车位姿信息:给出车辆起始位置和目标停车位置的3个维度的信息,横纵坐标和朝向角:
{x
,
y
,
θ
}
,其中横纵坐标表示自动驾驶车辆后轴中心的位置
。3.
根据权利要求1所述的非结构场景的强化学习泊车路径规划方法,其特征在于,使用混合
A*
算法生成对应场景下的专家泊车策略,将专家策略和泊车场景信息转换为模仿学习数据集,输入到模仿学习网络训练,得到车辆的泊车策略包括:首先根据所构建的泊车场景,使用混合
A*
算法生成一条从车辆起始位置到目标停车位置的一条符合车辆运动学的无碰撞路径,所述无碰撞路径的信息为包含一系列路径点的数组
。4.
根据权利要求1所述的非结构场景的强化学习泊车路径规划方法,其特征在于,构建非结构泊车场景时,用变分自动编码器将高度复杂的泊车场景编码成一维特征向量,变分自动编码器包括编码器和解码器,编码器接收来自非结构化泊车场景中的障碍物像素图,通过4层卷积层和2层全连接层生成隐藏层的分布模型,经过采样输出障碍物特征向量,障碍物特征向量通过由2层全连接层和4层逆卷积层构成的解码器恢复原来的图像数据
。5.
根据权利要求1所述的非结构场景的强化学习泊车路径规划方法,其特征在于,将泊车场景信息和专家策略转换为状态
‑
动作对数据集时,状态是在某时刻
t
的障碍物特征向量,车辆位置和目标停车位姿信息向量,动作则是自动驾驶车辆在当前状态下需要执行的操作,在模仿学习网络训练过程中,输入一系列状态,输出对应状态的泊车策略;所述泊车策略包括前进直行
、
前进右转...
【专利技术属性】
技术研发人员:陈仕韬,邱卓,史佳敏,郑南宁,王飞,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。