一种基于强化学习的车辆智能行驶方法技术

技术编号：39829166 阅读：19 留言：0更新日期：2023-12-29 16:06

本发明专利技术公开了一种基于强化学习的车辆智能行驶方法，首先建立状态空间与动作空间，构建初始场景和交互训练模型，然后建立双延迟深度确定性策略梯度算法和对应的超参数；基于智能驾驶员模型对双延迟深度确定性策略梯度算法进行改进；最后将获取的初始状态信息输入改进后算法的神经网络中进行深度强化学习训练，确定出最优车辆行驶策略

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的车辆智能行驶方法

[0001]本专利技术属于车辆智能驾驶决策
，特别是涉及一种基于强化学习的车辆智能行驶方法
。

技术介绍

[0002]近年来自动驾驶技术发展迅猛，各类算法的出现与应用层出不穷，加速了自动驾驶的实现进程
。
在诸多技术当中，决策技术作为智能车的大脑，需要在面对各种危险场景时对车辆发出正确的行为规划的指令，其对于整个自动驾驶系统而言有着举足轻重的作用
。
而车辆跟驰，前车急停以及环境车从前方左右侧切入是道路行驶时的常见场景，主车在面临这些场景时如何以较佳的速度提高行驶效率，面临前车急停或切入时怎么进行合理决策等都是至关重要的研究内容
。
[0003]现有的决策算法方案严格来说可以区分为基于专家规则的有限状态机和基于学习的这两大类
。
基于专家规则进行决策的方案，往往先借助既定的专家经验建立规则库，然后针对车辆目前所处的状态去选择合适的策略来处理问题
。
但是基于专家规则的决策方案是重决策类型，其做出的...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习的车辆智能行驶方法，其特征在于，包括以下步骤：
S1、
搭建车辆行驶仿真场景；包括建立状态空间向量
、
动作空间向量，构建初始场景，设计奖励函数以及搭建交互训练模型；
S2、
建立双延迟深度确定性策略梯度算法和对应的超参数；
S3、
利用智能驾驶员模型改进双延迟深度确定性策略梯度算法；
S4、
获取车辆初始状态，并利用改进后的算法进行训练，确定最优行驶策略
。2.
根据权利要求1所述的一种基于强化学习的车辆智能行驶方法，其特征在于，所述
S1
具体包括以下步骤：
S101、
建立状态空间及动作空间：所述状态空间向量为
State
＝
[ego_vx
，
ego_vy
，
ego_x
，
ego_y
，
other_v
x
，
other_v
y
，
other_x
，
other_y]
；其中，
ego_v
x
和
ego_v
y
为主车
x
，
y
方向的速度；
ego_x
与
ego_y
为主车
x
，
y
方向的位置坐标；
other_v
x
和
other_v
y
为环境车
x
，
y
方向的速度；
other_x
与
other_y
为环境车
x
，
y
方向的位置坐标；所述动作空间向量为
Action
＝
[a]
，其中
a
为主车加速度；
S102、
建立初始场景：包括获取车辆，碰撞传感器，并生成对应初始位置；
S103、
设计奖励函数；
S104、
搭建环境交互训练模型：使用加速度作为主车控制量，基于运动学模型计算主车的速度与位置：
ego_v
t+1
＝
ego_v
t
+a
t
×△
t
其中，
t
时刻到
t+1
时刻的时间差
△
t
＝
0.05s
，
ego_v
t
对应于
t
时刻的主车速度，
ego_v
t+1
对应于
t+1
时刻的主车速度，
ego_x
t
对应于
t
时刻的主车坐标位置，
a
t
对应于
t
时刻的主车加速度
。3.
根据权利要求2所述的一种基于强化学习的车辆智能行驶方法，其特征在于，奖励函数
reward
具体为：
reward
＝
k
×
r_col+b
×
r_vel+c
×
r_dis
其中，
r_col
为碰撞检测辨识变量，由碰撞传感器进行识别，如果发生碰撞则值为1，否则值为0，对应的系数
k
为碰撞奖励系数；
b
为速度奖励系数，
r_vel
速度奖励项，具体为：式中
ego_v
init
为主车的初始速度；
ego_v
为主车的速度：
c
为期望距离奖励系数，
r_dis
为期望距离奖励；表示两车目标距离与两车实际距离之差的绝对值；具体为：
r_dis
＝
tar_dis
‑
rel_dis
其中，
rel_dis
为两车的行驶距离之差，具体为：
式中
ego_x
，
ego_y
为主车的
x
，
y
坐标位置，
other_x
，
other_y
为环境车的
x
，
y
坐标位置；
tar_dis
为期望行驶距离，具体为：其中
s0为环境车到主车之间的初始距离，
ego_v
为主车的速度，
T
参考为主车驾驶员反应时间，
rel_v
为两车的速度之差，
a
α
为主车最大加速度，
b
α
为主车的舒适加速度
。4.
根据权利要求1所述的一种基于强化学习的车辆智能行驶方法，其特征在于，所述
S2
具体步骤包括：
S201、
设计演员－评论家的神经网络结构；
S202、
设计超参数
。5.
根据权利要求4所述的一种基于强化学习的车辆智能行驶方法，其特征在于，所述
S201
具体为：演员－评论家的神经网络结构包括演员网络及评论家网络两个部分，演员网络
Actor
的前向传播函数输入状态空间向量；然后经过两层中间层的
Linear
线性变换和
Relu
激活函数，最后在输出层使用
tanh
激活函数作为输出，具体输出值为主车加速度；评论家网络
Critic
的前向传播函数输入为状态空间向量与动作空间向量经过
cat
函数拼接而成的向量，其中动作空间向量具体为主车加速度，随后经过两层的中间层的
Linear
线性变换和
Relu
激活函数，同时在输出层输出评论家网络的输出；所述演员网络与评论家网络均包括动作网络和目标网络，双延迟深度确定性策略梯度算法拥有一个演员两个评论家，共6层网络结构；其中动作网络借助其对应的目标网络进行更新，目标网络自身则借助软更新的方法进行更新
。6.
根据权利要求4所述的一种基于强化学习的车辆智能行驶方法，其特征在于，所述
S202
超参数包括：演员评论家网络两层中间层的神经元个数
Linear1
和
Linear2
，演员网络学习率
Lr_A
，评论家网络学习率
Lr_C
，软更新率
Tau
，学习率
γ
，策略噪声
Policy_Nosie
，延迟更新频率
Policy_Freq
，动作噪声
Action_Nosie
，经验回放池容量
Memory_Cap
，采样数量
Batch_Size。7.
根据权利要求6所述的一种基于强化学习的车辆智能行驶方法，其特征在于，动作噪声
Action_Nosie
采用
OU
噪声，具体为：
ou_noise
＝
state_init+
θ
×
(mu
‑
ou_noise
last
)+
δ
×
rand[0,1]
其中，式中
ou_noise
为当前噪声状态，
state_init
为
OU
噪声初始化时的状态，
θ
为
OU
过程的回复速度，
mu
为
OU
过程的均值，
ou_noise
last
为上一次的噪声状态，
δ
表示
OU
过程的标准差；
OU
过程指噪声不断向均值回复，使用随机微分方程进行描述，
δ
标准差具体为：
δ
＝
δ
max
‑
(
δ<...

【专利技术属性】
技术研发人员：张素民，徐涛，何睿，白日，常宇鹏，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人