当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法技术方案

技术编号:33291333 阅读:24 留言:0更新日期:2022-05-01 00:10
本发明专利技术公开了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法,属于自动驾驶驾驶技术领域,通过机器学习来生成自动驾驶车辆的规划轨迹,使得规划轨迹更加智能化,提高了自动驾驶车辆在复杂场景下的轨迹规划能力,提高了普通采样法进行轨迹规划算法的效率,避免了复杂交通场景下的无效采样;本发明专利技术提出使用时空鸟瞰图作为策略网络的输入状态量,使得轨迹规划策略网络能有效的提取周边交通环境特征;本发明专利技术提出的策略梯度算法实现自动驾驶轨迹规划的方法,将交通环境、规划器和控制器有效联系起来,实现了三者的有效耦合,使得规划器输出轨迹能有效的适应车辆的动力学特性和控制器。力学特性和控制器。力学特性和控制器。

【技术实现步骤摘要】
一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法


[0001]本专利技术属于自动驾驶汽车轨迹规划
,特别涉及了一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统及方法。

技术介绍

[0002]近年来自动驾驶技术得到了迅速发展。它不仅在经济上具有巨大潜力,而且在提高交通效率和驾驶安全方面也具有巨大优势。轨迹规划作为自动驾驶系统中不可避免的一环,对整个自动驾驶车辆的研究具有重要意义。如何根据上层感知和预测结果,准确避开周边障碍物,进行安全和高效的行驶,是对自动驾驶车辆的基本要求。可靠的自动驾驶轨迹规划算法,可以实时指导自动驾驶车辆安全地避开周边障碍物,具有较高的安全和舒适性,能够极大的提高行车效率。现有的规划算法大都是基于人为规则的采样、搜索方法和优化法。一般的类似栅格法的采样方法难以进行完全采样,只能采样到较优的行驶轨迹。而完全的搜索方法,较难考虑到自动驾驶车辆的动力学约束。利用优化法进行轨迹规划算法对车载计算机的算力有较高的要求,每一帧之间轨迹的优化延时较大。因此,目前学术界和工业界在内的大多数自主驾驶研究者都在关注更加智本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,包括:基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块和轨迹规划策略网络模块;所述基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划模块:根据自动驾驶汽车的感知模块,获得周边的环境信息,包括动、静态障碍物,车道线,利用预测模块获得动态障碍物在未来0~t
end
的时间内的位置信息;将感知模块和预测模块所获得的信息,生成横向、纵向和时间三个维度的特征鸟瞰图;利用策略网络,对时空鸟瞰图进行进一步的特征提取,并输出轨迹的末状态其中s为纵向位移;为纵向位移s关于时间t的一阶导,为纵向位移s关于时间t的二阶导数;l为横向位移;为横向位移关于时间t的二阶导数;根据当前时刻自动驾驶车辆的纵向状态和策略网络输出的纵向状态生成纵向轨迹trajectory
longitudinal
;根据当前时刻自动驾驶车辆的横向状态生成横向轨迹trajectory
lateral
;将纵向轨迹trajectory
longitudinal
和横向轨迹trajectory
lateral
进行合并生成最终轨迹trajectory发送到控制模块;所述轨迹规划策略网络π
θ
(z,a)包括卷积(CNN)特征提取网络和全连接网络(FCN),其中z为策略网络的输入状态量,包括时空鸟瞰图矩阵和自动驾驶汽车的历史轨迹;a为策略网络的输出,即规划轨迹的末状态θ为网络的权重和偏置参数;所述轨迹规划策略网络π
θ
(z,a)从交通环境中获得状态量z输出最终轨迹trajectory发送到轨迹跟踪控制器,轨迹跟踪控制器控制自动驾驶车辆跟踪规划轨迹trajectory,交通环境将轨迹跟踪控制器的跟踪结果以奖励R(τ)的形式反馈给轨迹规划策略网络,策略网络根据R(τ)对策略网络的参数θ进行不断更新优化。2.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述时空鸟瞰图为三维矩阵,三维分别为横向位移l、纵向位移s和时间t,其中具体的元素有可行驶区域,不可行驶区域,障碍物和参考线;所述的障碍物和不可行驶区域在时空鸟瞰图矩阵中用

1进行表示;所述的可行驶区域在时空鸟瞰图矩阵中用0进行表示;所述的参考线在时空鸟瞰图中用1进行表示。3.根据权利要求1所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述策略网络π
θ
(z,a)通过生成轨迹的奖励函数R(τ)进行梯度上升法实现优化更新;所述奖励函数R(τ)为:R(τ)=k1·
R
speed
+k2·
R
accleration
+k3·
R
jerk
+k4·
R
lateral
+k5·
R
comfort
其中,R
speed
为纵向速度奖励,R
accleration
为纵向加速度奖励,R
jerk
为纵向加加速度奖励,R
lateral
为横向偏差奖励,R
comfort
为横向舒适度奖励,k
1~5
为每部分奖励前对应的比例系数。4.根据权利要求3所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述纵向速度奖励R
speed
为:其中γ为奖励函数的折扣因子,为期望的目标车速,为每个时刻的规划车速;
所述纵向加速度奖励R
accleration
为:其中γ为奖励函数的折扣因子,其中为每个时刻的规划加速度;所述纵向加加速度奖励R
jerk
具体表示为:其中γ为奖励函数的折扣因子,其中为每个时刻的规划加速度;所述横向偏差奖励R
lateral
具体表示为:其中γ为奖励函数的折扣因子,其中l
t
为每个时刻的横向位移,l
reference
为参考线上距离当前时刻规划轨迹点最近点的横向位移;所述横向舒适度奖励R
comfort
具体表示为:其中γ为奖励函数的折扣因子,其中为每个时刻的横向加速度。5.根据权利要求3所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述策略网络π
θ
(z,a)的优化目标为最大输出规划轨迹的期望回报:J(π)=∑
τ
p(τ,θ)
·
R(τ)其中p(τ,θ)表示在参数θ下每条轨迹τ出现的概率。6.根据权利要求3所述的一种基于时空鸟瞰图和策略梯度算法的自动驾驶轨迹规划系统,其特征在于,所述策略网络π
θ
(z...

【专利技术属性】
技术研发人员:蔡英凤杨绍卿滕成龙刘泽孙晓强陈龙王海
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1