【技术实现步骤摘要】
一种基于离线强化学习的交叉口车辆轨迹优化方法、系统
[0001]本专利技术属于车路协同智能交通道路控制
,尤其涉及基于离线强化学习的交叉口车辆轨迹优化方法、系统。
技术介绍
[0002]随着城市交通需求逐年增长,城市道路正在承受严重的交通拥堵,而拥堵又加重了能源消耗和环境恶化。交叉口是城市道路交通网络管控的瓶颈所在,改善主干道交叉口处的车辆管控对交通系统的效率有重要的作用。
[0003]传统的交通控制策略包括定时信号控制、自适应信号控制以及车辆驱动控制等。定时信号控制使用历史交通数据标定预先设施的信号灯参数,包括相位序列、周期长度和绿灯时长。车辆驱动和自适应信号控制将基础设施中的探测设备应用于实时交通数据收集并且根据时变的交通需求调整信号灯时长。
[0004]随着网联CAV(connected and autonomous vehicle,自动驾驶车)技术的发展,V2V(vehicle
‑
to
‑
vehicle,车车)通信与V2I(vehicle
‑
to
‑
infrastructure,车路)通信为交通管控提供了全新的数据集。这种双边通信实现了将交通信息实时传递给车辆并优化轨迹,同时可以收集精确的车辆轨迹数据。实时数据通信可以通过将轨迹数据传输给信号灯,实现信号相位和配时的优化;也可以假定信号相位与配时固定,通过控制车辆速度或加速度将信号灯数据用于车辆行驶轨迹的优化,从而减少能源消耗,车辆排放和延误,提升车辆的安全性。通常优 ...
【技术保护点】
【技术特征摘要】
1.一种基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,包括如下步骤:S1、搭建智能网联环境下交叉口信号灯与网联车辆的通信场景,设定车辆与信号灯的通信距离阈值,当车辆进入信号灯的控制范围时,双方可进行信息交互;S2、收集信号交叉口网联车辆的运行数据和信号灯的SPaT信息,构建静态数据集;S3、将车辆在交叉口的行驶过程模拟成马尔科夫决策过程,在步骤S2的静态数据集中在离线状态下通过强化学习方法训练车辆智能体,得到交叉口通行策略;S4、将训练后的策略应用于交叉口的车辆控制,通过控制车辆加速度使车辆按照最优化的轨迹运行。2.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤S1中,搭建通信场景的具体过程为:在智能网联交通环境下,基于V2I通信,道路设施与网联车辆通过通信设备交换车辆运行轨迹和信号灯SPaT信息;定义通信距离阈值R
c
,当信号灯与车辆距离小于R
c
时,车辆位于通信区域内,能根据网联交叉口系统提供的策略行进,此时的通信范围是以信号交叉口为圆心,以R
c
为半径的圆形区域;否则,车辆将按照自身的跟驰行为行进。3.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤S2中收集的车辆运行数据,包括车辆到交叉口停止线的距离、速度、加速度、绿灯剩余时间的信息。4.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤S3中,得到交叉口通行策略的具体步骤如下:S301、将车辆通过交叉口的行驶过程模拟成马尔科夫决策过程,马尔科夫决策过程用五元组(S,A,R,P,γ)来描述,其中:S和A为环境状态和智能体动作的集合;R为奖励函数;P是状态转移函数;γ是折扣因子;S302、将网联车辆作为智能体,通过四维向量定义状态S,具体公式为:s
t
=[d
r
(t),v
r
(t),φ(t),G(t)]
T
;其中,d
r
(t)代表车辆所处的位置;v
r
(t)代表车辆速度;φ(t)代表绿灯剩余时间,若车辆行进方向处于红灯状态,φ(t)值为0;G(t)为红灯剩余时间;S303、智能体动作A表示车辆的加速度控制,即加速度限值a
t
∈[d
m
,u
m
]范围内的连续动作空间;其中d
m
为加速度的下限值,u
m
为加速度的上限值;S304、将车辆通过交叉口的时长、车辆通过交叉口的能量消耗以及TTC作为奖励函数R的指标,TTC表示前车与后车保持当前速度差时,后车追上前车发生碰撞需要的时间:其中,TTC
i
...
【专利技术属性】
技术研发人员:张健,史晓宇,姜夏,张海燕,王博,钱品政,
申请(专利权)人:东南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。