当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于强化学习的车辆智能行驶方法技术

技术编号:39829166 阅读:6 留言:0更新日期:2023-12-29 16:06
本发明专利技术公开了一种基于强化学习的车辆智能行驶方法,首先建立状态空间与动作空间,构建初始场景和交互训练模型,然后建立双延迟深度确定性策略梯度算法和对应的超参数;基于智能驾驶员模型对双延迟深度确定性策略梯度算法进行改进;最后将获取的初始状态信息输入改进后算法的神经网络中进行深度强化学习训练,确定出最优车辆行驶策略

【技术实现步骤摘要】
一种基于强化学习的车辆智能行驶方法


[0001]本专利技术属于车辆智能驾驶决策
,特别是涉及一种基于强化学习的车辆智能行驶方法


技术介绍

[0002]近年来自动驾驶技术发展迅猛,各类算法的出现与应用层出不穷,加速了自动驾驶的实现进程

在诸多技术当中,决策技术作为智能车的大脑,需要在面对各种危险场景时对车辆发出正确的行为规划的指令,其对于整个自动驾驶系统而言有着举足轻重的作用

而车辆跟驰,前车急停以及环境车从前方左右侧切入是道路行驶时的常见场景,主车在面临这些场景时如何以较佳的速度提高行驶效率,面临前车急停或切入时怎么进行合理决策等都是至关重要的研究内容

[0003]现有的决策算法方案严格来说可以区分为基于专家规则的有限状态机和基于学习的这两大类

基于专家规则进行决策的方案,往往先借助既定的专家经验建立规则库,然后针对车辆目前所处的状态去选择合适的策略来处理问题

但是基于专家规则的决策方案是重决策类型,其做出的决策缺乏拟人性和舒适性,譬如基于规则定义的决策方案在面临障碍物的时候往往采用急停策略,使得乘客的舒适体验下降

并且如果自车面临未曾预设的场景,那么基于专家规则的有效状态机方案将会失效,所以这种以有限的专家规则去应对诸多复杂场景的方案显然是不合理的,存在着诸多长尾场景问题难以解决

而基于学习的方案主要有模仿学习和强化学习这两种

模仿学习通过模仿高质量的专家数据集从而拟合出一个适当的策略,但是高质量的专家数据集难以获取,且模仿学习泛化能力较差,其获得的策略质量不会高于原有的专家数据集,与基于规则的方案一样都具有一定的局限性

而强化学习通过与环境交互和探索性试错自我学习的原理,拥有着既定专家规则和理论上达到完美驾驶车辆的能力

这使得强化学习近些年来被广泛关注,其有效提升了智能体在复杂环境下的决策能力,在自动驾驶决策领域具有重大的研究意义

[0004]传统强化学习如
Q

learning
算法往往基于
Q

表格进行值函数更新迭代,但是这种做法在面临维数较大的状态空间时往往容易引发维度灾难

所以对于
Q

learing
算法引入深度神经网络来形成
DQN
算法从而解决维度灾难问题

但是
DQN
算法仅适用于离散动作空间,有限的离散动作在面对复杂场景时将难以做出实际意义上的最优策略,离散有限且固定的油门刹车转向值选取将使得车辆行驶过程中的安全性,通行效率与舒适性有所降低

而具有演员-评论家结构的
DDPG
算法解决了这一问题,但是
DDPG
算法作为早些年提出的算法存在着明显
Q
值高估和策略不稳定的现象

最终这些问题在
TD3
算法中得以解决,不过以上强化学习的算法都存在一个明显的问题:那就是缺乏类似于专家经验的引导,使得其与复杂环境早期交互时存在着大量漫无目的的探索,而过度探索将会使得训练收敛的时间大幅度提升,并且也更难以收敛到最优的策略


技术实现思路

[0005]为解决上述现有技术存在的问题,本专利技术实施例的目的在于提供一种基于强化学习的车辆智能行驶方法,以实现车辆自动驾驶行驶过程中的舒适性,通行效率和安全性的提高,并进一步提升智能行驶算法在处理复杂环境时的收敛速度与获得最优策略的能力

[0006]为解决上述技术问题,本专利技术所采用的技术方案是,一种基于强化学习的车辆智能行驶方法,包括以下步骤:
[0007]S1、
搭建车辆行驶仿真场景;包括建立状态空间向量

动作空间向量,构建初始场景,设计奖励函数以及搭建交互训练模型;
[0008]S2、
建立双延迟深度确定性策略梯度算法和对应的超参数;
[0009]S3、
利用智能驾驶员模型改进双延迟深度确定性策略梯度算法;
[0010]S4、
获取车辆初始状态,并利用改进后的算法进行训练,确定最优行驶策略

[0011]进一步的,所述
S1
具体包括以下步骤:
[0012]S101、
建立状态空间及动作空间:所述状态空间向量为
State

[ego_vx

ego_vy

ego_x

ego_y

other_v
x

other_v
y

other_x

other_y];其中,
ego_v
x

ego_v
y
为主车
x

y
方向的速度;
ego_x

ego_y
为主车
x

y
方向的位置坐标;
other_v
x

other_v
y
为环境车
x

y
方向的速度;
other_x

other_y
为环境车
x

y
方向的位置坐标;
[0013]所述动作空间向量为
Action

[a],其中
a
为主车加速度;
[0014]S102、
建立初始场景:包括获取车辆,碰撞传感器,并生成对应初始位置;
[0015]S103、
设计奖励函数;
[0016]S104、
搭建环境交互训练模型:
[0017]使用加速度作为主车控制量,基于运动学模型计算主车的速度与位置:
[0018]ego_v
t+1

ego_v
t
+a
t
×△
t
[0019][0020]其中,
t
时刻到
t+1
时刻的时间差

t

0.05s

ego_v
t
对应于
t
时刻的主车速度,
ego_v
t+1
对应于
t+1
时刻的主车速度,
ego_x
t
对应于
t
时刻的主车坐标位置,
a
t
对应于
t
时刻的主车加速度

[0021]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习的车辆智能行驶方法,其特征在于,包括以下步骤:
S1、
搭建车辆行驶仿真场景;包括建立状态空间向量

动作空间向量,构建初始场景,设计奖励函数以及搭建交互训练模型;
S2、
建立双延迟深度确定性策略梯度算法和对应的超参数;
S3、
利用智能驾驶员模型改进双延迟深度确定性策略梯度算法;
S4、
获取车辆初始状态,并利用改进后的算法进行训练,确定最优行驶策略
。2.
根据权利要求1所述的一种基于强化学习的车辆智能行驶方法,其特征在于,所述
S1
具体包括以下步骤:
S101、
建立状态空间及动作空间:所述状态空间向量为
State

[ego_vx

ego_vy

ego_x

ego_y

other_v
x

other_v
y

other_x

other_y]
;其中,
ego_v
x

ego_v
y
为主车
x

y
方向的速度;
ego_x

ego_y
为主车
x

y
方向的位置坐标;
other_v
x

other_v
y
为环境车
x

y
方向的速度;
other_x

other_y
为环境车
x

y
方向的位置坐标;所述动作空间向量为
Action

[a]
,其中
a
为主车加速度;
S102、
建立初始场景:包括获取车辆,碰撞传感器,并生成对应初始位置;
S103、
设计奖励函数;
S104、
搭建环境交互训练模型:使用加速度作为主车控制量,基于运动学模型计算主车的速度与位置:
ego_v
t+1

ego_v
t
+a
t
×△
t
其中,
t
时刻到
t+1
时刻的时间差

t

0.05s

ego_v
t
对应于
t
时刻的主车速度,
ego_v
t+1
对应于
t+1
时刻的主车速度,
ego_x
t
对应于
t
时刻的主车坐标位置,
a
t
对应于
t
时刻的主车加速度
。3.
根据权利要求2所述的一种基于强化学习的车辆智能行驶方法,其特征在于,奖励函数
reward
具体为:
reward

k
×
r_col+b
×
r_vel+c
×
r_dis
其中,
r_col
为碰撞检测辨识变量,由碰撞传感器进行识别,如果发生碰撞则值为1,否则值为0,对应的系数
k
为碰撞奖励系数;
b
为速度奖励系数,
r_vel
速度奖励项,具体为:式中
ego_v
init
为主车的初始速度;
ego_v
为主车的速度:
c
为期望距离奖励系数,
r_dis
为期望距离奖励;表示两车目标距离与两车实际距离之差的绝对值;具体为:
r_dis

tar_dis

rel_dis
其中,
rel_dis
为两车的行驶距离之差,具体为:
式中
ego_x

ego_y
为主车的
x

y
坐标位置,
other_x

other_y
为环境车的
x

y
坐标位置;
tar_dis
为期望行驶距离,具体为:其中
s0为环境车到主车之间的初始距离,
ego_v
为主车的速度,
T
参考为主车驾驶员反应时间,
rel_v
为两车的速度之差,
a
α
为主车最大加速度,
b
α
为主车的舒适加速度
。4.
根据权利要求1所述的一种基于强化学习的车辆智能行驶方法,其特征在于,所述
S2
具体步骤包括:
S201、
设计演员-评论家的神经网络结构;
S202、
设计超参数
。5.
根据权利要求4所述的一种基于强化学习的车辆智能行驶方法,其特征在于,所述
S201
具体为:演员-评论家的神经网络结构包括演员网络及评论家网络两个部分,演员网络
Actor
的前向传播函数输入状态空间向量;然后经过两层中间层的
Linear
线性变换和
Relu
激活函数,最后在输出层使用
tanh
激活函数作为输出,具体输出值为主车加速度;评论家网络
Critic
的前向传播函数输入为状态空间向量与动作空间向量经过
cat
函数拼接而成的向量,其中动作空间向量具体为主车加速度,随后经过两层的中间层的
Linear
线性变换和
Relu
激活函数,同时在输出层输出评论家网络的输出;所述演员网络与评论家网络均包括动作网络和目标网络,双延迟深度确定性策略梯度算法拥有一个演员两个评论家,共6层网络结构;其中动作网络借助其对应的目标网络进行更新,目标网络自身则借助软更新的方法进行更新
。6.
根据权利要求4所述的一种基于强化学习的车辆智能行驶方法,其特征在于,所述
S202
超参数包括:演员评论家网络两层中间层的神经元个数
Linear1

Linear2
,演员网络学习率
Lr_A
,评论家网络学习率
Lr_C
,软更新率
Tau
,学习率
γ
,策略噪声
Policy_Nosie
,延迟更新频率
Policy_Freq
,动作噪声
Action_Nosie
,经验回放池容量
Memory_Cap
,采样数量
Batch_Size。7.
根据权利要求6所述的一种基于强化学习的车辆智能行驶方法,其特征在于,动作噪声
Action_Nosie
采用
OU
噪声,具体为:
ou_noise

state_init+
θ
×
(mu

ou_noise
last
)+
δ
×
rand[0,1]
其中,式中
ou_noise
为当前噪声状态,
state_init

OU
噪声初始化时的状态,
θ

OU
过程的回复速度,
mu

OU
过程的均值,
ou_noise
last
为上一次的噪声状态,
δ
表示
OU
过程的标准差;
OU
过程指噪声不断向均值回复,使用随机微分方程进行描述,
δ
标准差具体为:
δ

δ
max

(
δ<...

【专利技术属性】
技术研发人员:张素民徐涛何睿白日常宇鹏
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1