基于深度强化学习的车辆匝道入口合流控制方法技术

技术编号:37802337 阅读:11 留言:0更新日期:2023-06-09 09:32
一种基于深度强化学习的车辆匝道入口合流控制方法,其特征在于利用SUMO构建匝道合流仿真环境并获取相关状态信息,设计状态空间、动作空间以及奖励函数,基于近端策略优化算法构建Actor网络和Critic网络,并对网络进行迭代训练,直至收敛,最后通过TraCI接口与SUMO交互,完成匝道入口合流行为;加入了效率、舒适度等其他奖励标准,可以有效提升瓶颈路段的通行效率;采用actor

【技术实现步骤摘要】
基于深度强化学习的车辆匝道入口合流控制方法


[0001]本专利技术涉及一种车辆匝道入口合流控制方法,尤其涉及一种基于深度强化学习的车辆匝道入口合流控制方法。属于深度学习
,也属于车辆人工智能控制


技术介绍

[0002]匝道合流是造成城市高架道路和高速公路交通拥堵的主要原因之一。对于车辆来说,在匝道合流入口必须综合考虑周围环境各类因素,等待合适的合流机会,同时根据对安全间距和主干道车辆速度的判断以确定加速的程度和时间。驾驶员操作不慎就极易引发交通事故,从而产生严峻的交通拥堵,降低交通效率,增加碰撞风险,增加出行时间,给乘客带来不适。即使车辆顺利完成匝道入口合流,在实际过程也不一定是全局最优的,安全性、效率和舒适性难以兼顾和保证。因此,车辆匝道入口合流控制方法具有较强的实际意义和研究价值。
[0003]随着人工智能的不断发展,智慧交通受到了国内外学者广泛关注。发展智慧交通是构建“安全可靠、便捷高效、绿色智能、开放共享”的现代化综合交通系统的重要手段,是主动顺应新兴信息技术和互联网发展的新趋势。现有的基于机器学习的合流控制方法主要以模型预测控制为主。一般要先从实际交通数据中提取特征变量,再建立交通流模型。由于实际交通状况具有高度随机性,难以建立精确的交通预测模型,因此较难在复杂场景中取得良好的建模效果导致匝道合流控制准确度下降。而深度强化学习是通过智能体待合流车辆与动态、复杂环境中的其他车辆不断交互,并根据环境信息的反馈学习最优的控制策略,可灵活应用于驾驶车辆入匝道合流控制,从而解决道路拥堵、交通事故等问题。因此,综合考虑车辆纵、横向运动控制,兼顾考虑安全性、舒适性和效率等要素,提供一种基于PPO的深度强化学习的车辆匝道入口合流控制方法及系统来实现高可靠性、高效率及高舒适度的匝道合流,为智慧交通自动驾驶汽车瓶颈技术问题的解决提供借鉴方案。

技术实现思路

[0004]一种基于深度强化学习的车辆匝道入口合流控制方法,本专利技术的提出,目的是克服现有匝道合流方案的不足,提供了一种基于深度强化学习的车辆匝道入口合流控制方法,实现了自动驾驶车辆匝道合流控制,增强了合流区域车辆行驶的安全性,提高车辆合流动作的效率及保证乘客舒适度,从而提高交通通行效率。
[0005]本专利技术的技术解决方案是这样实现的:
[0006]一种基于深度强化学习的车辆匝道入口合流控制方法,其特征在于利用SUMO构建匝道合流仿真环境并获取相关状态信息,设计状态空间、动作空间以及奖励函数,基于近端策略优化算法构建Actor网络和Critic网络,并对网络进行迭代训练,直至收敛,最后通过TraCI接口与SUMO交互,完成匝道入口合流行为,包括以下步骤:
[0007]步骤一、利用SUMO交通仿真软件搭建高速公路匝道合流路段并获取道路环境、自车及周围环境车辆的状态信息,状态信息包括车辆ID、横向位置、纵向位置、横向速度、纵向
速度、加速度;
[0008]步骤二、利用车辆的状态信息,设计状态空间、动作空间以及奖励函数:
[0009]1、状态空间S由自车和主车道前、后车辆的连续状态组成S={x
e
,x
f
,x
r
},其中x
e
代表自车状态,x
e
=[p
x
,p
y
,sp
x
,sp
y
,a],其中p
x
,p
y
分别表示自车的横、纵向位置,sp
x
,sp
y
分别表示自车的横、纵向速度,a表示自车加速度,而x
f
,x
r
分别为主车道前后车辆状态,x
i
=[d
rd
,p
x
,sp
y
,a
i
],i∈{f,r},其中d
rd
表示该车道车辆与自车的相对距离,p
x
,sp
y
,a
i
分别为该车的横向位置、纵向速度及该车的加速度;
[0010]2、动作空间A由车辆动作集合a构成,a={1,2},1表示立即进行匝道合流,2表示暂停合流;
[0011]3、奖励函数R由舒适度子奖励、效率子奖励、安全子奖励构成,表达式为:R=μ
c
R
c
(t)+μ
e
R
eff
(t)+μ
u
R
unsafety
,其中R
c
(t)、R
eff
(t)、R
unsafety
分别代表舒适度子奖励、效率子奖励、安全子奖励,μ
c

e

u
分别为对应子奖励的权重,μ
c

e

u
=1,其中:
[0012](1)舒适度子奖励,表达式为:R
c
(t)=

α
·
a
x
(t)2‑
β
·
a
y
(t)2,a
x
,a
y
分别为横纵加速度,α,β分别为横纵向舒适度对应的权重;
[0013](2)效率子奖励,表达式为:R
eff
(t)=w
t
·
R
time
(t)+w
m
·
R
merge
(t)+w
s
·
R
speed
(t),R
time
(t)是基于时间的次奖励,R
merge
(t)表示自车横向位置相对于目标横向位置的差值,R
speed
(t)表示自车纵向速度相对于目标纵向速度的差值,通过w
t
,w
m
和w
s
调节权重;
[0014](3)安全子奖励,表达式为:当发生碰撞时,当前状态下当前动作的奖励值为

100;当距离低于安全距离d
s
时,根据选择合流动作(action=1)或暂停合流动作(action=2)情况,通过R
near_collision
参数来表示此时的奖励值,R
near_collision
表达式为:
[0015][0016]p
y,e
表示自车纵向位置,p
y,f p
y,r
分别表示主车道前后车辆的纵向位置。
[0017]步骤三、基于近端策略优化算法,构建Actor网络和Critic网络,Actor网络是策略网络,负责与环境的交互获得行动策略;Critic网络是评估网络,负责对策略进行评估,策略网络调整参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的车辆匝道入口合流控制方法,其特征在于:利用SUMO构建匝道合流仿真环境并获取相关状态信息,设计状态空间、动作空间以及奖励函数,基于近端策略优化算法构建Actor网络和Critic网络,并对网络进行迭代训练,直至收敛,最后通过TraCI接口与SUMO交互,完成匝道入口合流行为,包括以下步骤:步骤一、利用SUMO交通仿真软件搭建高速公路匝道合流路段并获取道路环境、自车及周围环境车辆的状态信息,状态信息包括车辆ID、横向位置、纵向位置、横向速度、纵向速度、加速度;步骤二、利用车辆的状态信息,设计状态空间、动作空间以及奖励函数:1、状态空间S由自车和主车道前、后车辆的连续状态组成S={x
e
,x
f
,x
r
},其中x
e
代表自车状态,x
e
=[p
x
,p
y
,sp
x
,sp
y
,a],其中p
x
,p
y
分别表示自车的横、纵向位置,sp
x
,sp
y
分别表示自车的横、纵向速度,a表示自车加速度,而x
f
,x
r
分别为主车道前后车辆状态,x
i
=[d
rd
,p
x
,sp
y
,a
i
],i∈{f,r},其中d
rd
表示该车道车辆与自车的相对距离,p
x
,sp
y
,a
i
分别为该车的横向位置、纵向速度及该车的加速度;2、动作空间A由车辆动作集合a构成,a={1,2},1表示立即进行匝道合流,2表示暂停合流;3、奖励函数R由舒适度子奖励、效率子奖励、安全子奖励构成,表达式为:R=μ
c
R
c
(t)+μ
e
R
eff
(t)+μ
u
R
unsafety
,其中R
c
(t)、R
eff
(t)、R
unsafety
分别代表舒适度子奖励、效率子奖励、安全子奖励,μ
c

e

...

【专利技术属性】
技术研发人员:佟宁李凤岐王坤瑞
申请(专利权)人:大连交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1