一种面向自动驾驶赛车的极限驾驶规划控制方法技术

技术编号:39833389 阅读:5 留言:0更新日期:2023-12-29 16:16
本发明专利技术提供了一种面向自动驾驶赛车的极限驾驶规划控制方法,后退式强化学习模块设计难度逐步提升的多阶段强化学习课程,依次利用专家引导策略和强化学习策略完成整个赛道的车辆轨迹规划,并在训练过程中逐步后退提高强化学习策略的应用范围;风险感知变异模块结合好奇心驱动机制和变异算法,通过对关键风险状态和强化学习动作网络进行变异操作,促进强化学习算法学习关键风险状态中蕴含的极限驾驶知识,提升临界风险状态下的鲁棒性和安全性;模型预测控制模块:基于非线性模型预测控制算法生成局部最优控制命令,跟踪后退式强化学习模块提供的目标轨迹,使得满足车辆动力学约束并能够预测潜在风险,可以实现自动驾驶赛车的运动控制

【技术实现步骤摘要】
一种面向自动驾驶赛车的极限驾驶规划控制方法


[0001]本专利技术涉及自动驾驶系统,具体涉及一种面向自动驾驶赛车的极限驾驶规划控制方法


技术介绍

[0002]近年来,随着人工智能和传感技术的不断进步,自动驾驶技术得到了显著发展和广泛应用,自动驾驶赛车则是将其运用到赛车运动中的一种尝试

自动驾驶赛车是指在无人操控的情况下,由自动驾驶系统控制的赛车进行比赛

自动驾驶赛车领域正在快速发展,为赛车运动带来全新的体验和挑战,在推动自动驾驶技术的发展

提高驾驶安全性和可靠性

促进交通系统优化方面具有重要意义

[0003]在赛车比赛中,职业赛车手精确操纵赛车达到性能极限,在保证安全的前提下达到最高速度和最小圈时

很明显,与日常工况下自动驾驶相比,自主驾驶赛车的规划控制系统设计更具有挑战性,因为它需要全面考虑车辆的极限特性

复杂的赛道条件

驾驶性能和车辆安全的精确平衡等

通过在极限情况下的测试和优化,可以改进自动驾驶系统的性能,并确保其在各种复杂驾驶场景下的表现

同时自动驾驶赛车能够为自动驾驶技术创新和进步提供契机,将此技术应用于日常驾驶场景中,使得自动驾驶车辆拥有职业车手的高水平驾驶能力,从而充分扩展自动驾驶车辆在极限驾驶工况下的控制潜能和安全阈值
,
对于进一步降低交通事故率及事故损失,加速高级别自动驾驶技术落地应用具有重要意义


技术实现思路

[0004]鉴于此,本专利技术提供了一种面向自动驾驶赛车的极限驾驶规划控制方法,可以结合专家经验数据

强化学习算法以及经典控制,推动自动驾驶赛车在保证安全的前提下达到性能极限,从而实现最大车速和最小圈时

[0005]一种面向自动驾驶赛车的极限驾驶规划控制方法,包括如下步骤:
[0006]步骤
1、
将整个赛道
T
分为
N
个部分,表示为;
[0007]T

[T1,T2,

,T
i
,

,T
N
]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0008]式中,
T
i
表示第
i
个赛道阶段;在每个训练回合中,后退式强化学习模块采用强化学习算法在前
h
个阶段使用事先获得的专家引导策略
π
g
,
在剩余的
N

h
个阶段使用强化学习算法进行探索学习,直至总体性能
M
π
达到预设的性能阈值或达到指定的训练回合数,将进入下一个课程学习阶段
h

h

1。h
逐渐从
N
‑1迭代降低至0,由强化学习的探索范围从最后一个赛道逐步后退至整个赛道;
[0009]其中,强化学习算法的状态空间
S
设置为:
[0010][0011]式中,
h
表示课程学习的迭代阶段;
s
F
为沿着参考线方向的曲线长度,
d
F
为偏离参考线的法向距离;
β

ψ
和分别表示车辆的质心侧偏角

航向角和横摆角速度
。V
表示总车速,
V
s
和分别表示当前状态和专家引导策略在
s
F

s
处于参考路径相切的速度分量;
a
g
表示车辆的总加速度大小,单位用重力加速度
g
表示,
M
为当前车辆状态模式;
[0012]强化学习算法的动作空间
A
设置为:
[0013]A

[d
F_com
,
Δ
V
s_com
]T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0014]式中,
d
F_com
表示当前目标位置到参考路径的法向距离,表示与参考路径相比的
V
s
残差项,其中
V
s_com
表示最终传递给模型预测控制模块的
V
s
速度分量命令值;
[0015]强化学习算法的奖励函数
R
由瞬时奖励
R
i

阶段奖励
R
p
和终止状态奖励
R
l
三个奖励类型组成,表示为:
[0016]R

R
i
+R
p
+R
l
ꢀꢀꢀꢀ
(4)

[0017]步骤
2、
对关键风险状态和强化学习动作网络进行变异操作,具体包括:
[0018]步骤
21、
识别风险状态
[0019]在强化学习训练过程中,将包含关键风险状态的四元组
(s
t
,a
t
,r
t
,s
t+1
)
存储到另外一个经验池
D

中,并通过辅助代价函数
J
c
来识别风险状态,当
J
c
>J
c0
,s
t
被定义为风险状态,其中
J
c0
代价函数的安全阈值;
[0020]步骤
22、
内在奖励设计
[0021]当从经验池
D
采样一批样本并识别到风险状态
s
t
时,通过对车辆关键运动状态叠加高斯噪声进行变异操作,得到
M
个增强状态
g(s
t
)
;基于奖励函数
R
和代价函数
J
c
定义每两个增强状态和间的变异指数
c
ij
,其定义为:
[0022][0023]选取对应
c
ij
最高值的两个增强状态和并引入一个与
c
ij
M
个增强状态中最高值成正比的好奇心驱动的内在奖励
R
int
,其定义为:
[0024][0025]式中,
λ
为温度系数,
η
为衰减权重,
σ
为训练回合;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向自动驾驶赛车的极限驾驶规划控制方法,其特征在于,包括如下步骤:步骤
1、
将整个赛道
T
分为
N
个部分,表示为;
T

[T1,
T2,


T
i



T
N
]
ꢀꢀꢀꢀ
(1)
式中,
T
i
表示第
i
个赛道阶段;在每个训练回合中,后退式强化学习模块采用强化学习算法在前
h
个阶段使用事先获得的专家引导策略
π
g
,在剩余的
N

h
个阶段使用强化学习算法进行探索学习,直至总体性能
M
π
达到预设的性能阈值或达到指定的训练回合数,将进入下一个课程学习阶段
h

h

1。h
逐渐从
N
‑1迭代降低至0,由强化学习的探索范围从最后一个赛道逐步后退至整个赛道;其中,强化学习算法的状态空间
S
设置为:式中,
h
表示课程学习的迭代阶段;
s
F
为沿着参考线方向的曲线长度,
d
F
为偏离参考线的法向距离;
β

ψ
和分别表示车辆的质心侧偏角

航向角和横摆角速度
。V
表示总车速,
V
s
和分别表示当前状态和专家引导策略在
s
F

s
处于参考路径相切的速度分量;
a
g
表示车辆的总加速度大小,单位用重力加速度
g
表示,
M
为当前车辆状态模式;强化学习算法的动作空间
A
设置为:
A

[d
F_com

Δ
V
s_com
]
T
ꢀꢀꢀꢀ
(3)
式中,
d
F_com
表示当前目标位置到参考路径的法向距离,表示与参考路径相比的
V
s
残差项,其中
V
s_com
表示最终传递给模型预测控制模块的
V
s
速度分量命令值;强化学习算法的奖励函数
R
由瞬时奖励
R
i

阶段奖励
R
p
和终止状态奖励
R
l
三个奖励类型组成,表示为:
R

R
i
+R
p
+R
l
ꢀꢀꢀꢀ
(4)
;步骤
2、
对关键风险状态和强化学习动作网络进行变异操作,具体包括:步骤
21、
识别风险状态在强化学习训练过程中,将包含关键风险状态的四元组
(s
t

a
t

r
t

s
t+1
)
存储到另外一个经验池
D

中,并通过辅助代价函数
J
c
来识别风险状态,当
J
c

J
c0

s
t
被定义为风险状态,其中
J
c0
代价函数的安全阈值;步骤
22、
内在奖励设计当从经验池
D
采样一批样本并识别到风险状态
s
t
时,通过对车辆关键运动状态叠加高斯噪声进行变异操作,得到
M
个增强状态
g(s
t
)
;基于奖励函数
R
和代价函数
J
c
定义每两个增强状态和间的变异指数
c
ij
,其定义为:选取对应
c
ij
最高值的两个增强状态和并引入一个与
c
ij
M
个增强状态中最高值成正比的好奇心驱动的内在奖励
R
int
,其定义为:式中,
λ
为温度系数,
η
为衰减权重,
σ
为训练回合;对于
J
c
≤J
c0
的一般状态,内在奖励
R
int
设置为0;将式
(4)
中的外部奖励
R
与内在奖励
R
int
相加,得到强化学习算法的总奖励相加,得到强化学习算法的总奖励步骤
23、

【专利技术属性】
技术研发人员:侯晓慧甘明刚陈杰吴玮马千兆
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1