当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于离线强化学习的交叉口车辆轨迹优化方法、系统技术方案

技术编号:38501252 阅读:18 留言:0更新日期:2023-08-15 17:08
本发明专利技术公开了一种基于离线强化学习的交叉口车辆轨迹优化方法、系统,具体步骤如下:搭建智能网联环境下交叉口信号灯与网联车辆的通信场景,设定场景内车辆与信号灯的通信距离阈值,当车辆行驶至信号灯的控制区域时,双方可进行信息交互。收集信号交叉口网联车辆的运行轨迹和信号相位配时数据,将车辆在交叉口的行驶过程抽象为马尔科夫决策过程,将车辆旅行时间、车辆能耗、碰撞时间等作为马尔科夫决策奖励函数的参数,构建适用的数据集,在离线状态下通过强化学习方法训练车辆智能体得到适用的交叉口通行策略。本发明专利技术可应用于交叉口的车辆控制,通过控制车辆加速度使车辆按照最优轨迹行驶,实现车辆的节能减排和安全性能提升。升。升。

【技术实现步骤摘要】
一种基于离线强化学习的交叉口车辆轨迹优化方法、系统


[0001]本专利技术属于车路协同智能交通道路控制
,尤其涉及基于离线强化学习的交叉口车辆轨迹优化方法、系统。

技术介绍

[0002]随着城市交通需求逐年增长,城市道路正在承受严重的交通拥堵,而拥堵又加重了能源消耗和环境恶化。交叉口是城市道路交通网络管控的瓶颈所在,改善主干道交叉口处的车辆管控对交通系统的效率有重要的作用。
[0003]传统的交通控制策略包括定时信号控制、自适应信号控制以及车辆驱动控制等。定时信号控制使用历史交通数据标定预先设施的信号灯参数,包括相位序列、周期长度和绿灯时长。车辆驱动和自适应信号控制将基础设施中的探测设备应用于实时交通数据收集并且根据时变的交通需求调整信号灯时长。
[0004]随着网联CAV(connected and autonomous vehicle,自动驾驶车)技术的发展,V2V(vehicle

to

vehicle,车车)通信与V2I(vehicle

to

infrastructure,车路)通信为交通管控提供了全新的数据集。这种双边通信实现了将交通信息实时传递给车辆并优化轨迹,同时可以收集精确的车辆轨迹数据。实时数据通信可以通过将轨迹数据传输给信号灯,实现信号相位和配时的优化;也可以假定信号相位与配时固定,通过控制车辆速度或加速度将信号灯数据用于车辆行驶轨迹的优化,从而减少能源消耗,车辆排放和延误,提升车辆的安全性。通常优化控制问题将车辆位置与速度视作状态变量,将加速度视作控制变量。但是在复杂的约束条件与多目标状况下,优化控制方法的计算复杂度较高。一种方法是将时间和状态空间离散化,将问题转化为多阶段决策问题,另一种方法是将车辆轨迹划分为具有连续加速的不同的部分,从而缓解计算压力。
[0005]与此同时,基于DRL(Deep Reinforcement Learning,深度强化学习)的交叉口控制方法也提供了解决上述困境的新思路。将车辆或信号灯作为强化学习的智能体,智能体根据自身动作和交叉口状态变化不断更新策略,选择回报最高的动作,从而优化交叉口的节能控制。但在在线强化学习中,智能体在训练过程中需要不断与环境进行交互,根据最新的反馈数据更新策略并选择动作。由于在线学习过程中,智能体尚未成熟时可能会选择危险动作导致交通事故,同时,实时策略的更新对计算复杂度与速度要求较高,可能导致策略更新不及时。因此,考虑离线强化学习方法,将已有的交叉口车辆轨迹数据用于智能体训练,车辆智能体只需根据当前状态从形成的策略空间中选择最优的策略控制交叉口车辆。该方法压缩了计算复杂度,优化车辆轨迹,实现节能减排,安全性与效率的提升。

技术实现思路

[0006]本专利技术所要解决的技术问题是:一种基于离线强化学习的交叉口车辆轨迹优化方法,在智能网联环境下收集交叉口车辆通行轨迹数据与信号相位数据,构建用于训练车辆控制策略的静态数据集;在信号灯与网联车辆的通信范围内,车辆智能体采用由构建的数
据集训练的交叉口通行策略提供的最优通行轨迹,优化交叉口车辆控制。
[0007]本专利技术为解决上述技术问题采用以下技术方案:
[0008]本专利技术提出的一种基于离线强化学习的交叉口车辆轨迹优化方法,包括如下步骤:
[0009]S1、搭建智能网联环境下交叉口信号灯与网联车辆的通信场景,根据交叉口之间的距离,设定车辆与信号灯的通信距离阈值,一般为100到300米范围,当车辆进入信号灯的控制范围时,双方可进行信息交互。
[0010]S2、收集信号交叉口网联车辆的运行数据和信号灯的SPaT(Signal Phase and Timing,相位与配时)信息,构建静态数据集。
[0011]S3、将车辆在交叉口的行驶过程模拟成马尔科夫决策过程,在步骤S2构建的静态数据集中以离线状态通过强化学习方法训练车辆智能体,得到适用的交叉口通行策略。
[0012]S4、将训练后的策略应用于交叉口的车辆控制,根据观察到的环境状态数据选定最合适的加速度,通过控制车辆加速度使车辆按照最优化的轨迹运行。
[0013]进一步,步骤S1中,搭建智能网联环境下交叉口信号灯与网联车辆的通信场景的具体过程为:在智能网联交通环境下,基于V2I通信,道路设施与网联车辆通过通信设备交换车辆运行轨迹和信号灯SPaT信息;比较在不同通信距离阈值下的车辆运行结果,选出合适的通信距离阈值R
c
,当信号灯与车辆距离小于R
c
时,车辆位于通信区域内,能够根据网联交叉口系统提供的策略行进,此时的通信范围是以信号交叉口为圆心,以R
c
为半径的圆形区域;否则,车辆将按照自身的跟驰行为行进。
[0014]进一步,步骤S2的具体过程如下:根据步骤S1中搭建的信号交叉口通信场景,收集的车辆运行数据,包括车辆到交叉口停止线的距离、速度、加速度、绿灯剩余时间的信息。
[0015]进一步,步骤S3中,将车辆运行行为抽象为具有马尔科夫性质的决策过程,则某一时刻的交叉口车辆状态只取决于上一时刻的状态与车辆行为,且该决策过程是随时间不断行进的,将车辆作为智能体,在智能体与环境状态之间存在一个不断交互的过程。离线强化学习实现在智能体不与环境进行交互的前提下,仅根据收集的数据集,通过强化学习算法得到适用的策略。离线强化学习可以避免智能体与环境交互过程中产生的危险或是统计智能体回报导致的延误。具体步骤如下:
[0016]S301、将车辆通过交叉口的行驶过程模拟成马尔科夫决策过程,马尔科夫决策具体过程用五元组(S,A,R,P,γ)来描述,其中:S和A为环境状态和智能体动作的集合;R为奖励函数,奖励可以取决于环境状态和智能体动作或只取决于状态;P是状态转移函数,表示在某状态下执行某动作后到达另一状态的概率;γ是折扣因子,用于衡量当前奖励与未来长期回报的相对重要性。
[0017]S302、将网联车辆作为智能体,通过四维向量定义状态S,具体公式为:
[0018]s
t
=[d
r
(t),v
r
(t),φ(t),G(t)]T

[0019]其中,d
r
(t)代表车辆所处的位置;v
r
(t)代表车辆速度,由网联车辆提供;φ(t)代表绿灯剩余时间,若车辆行进方向处于红灯状态,φ(t)值为0;G(t)为红灯剩余时间,由V2I通信传输的SPaT信息提供。
[0020]S303、智能体动作A表示为车辆的加速度控制,即加速度限值a
t
∈[d
m
,u
m
范围内的连续动作空间;其中d
m
为加速度的下限值,u
m
为加速度的上限值。除了加速度限值外,加速度
还满足车辆的安全性要求,即避免追尾或超出限速值范围。
[0021]S304、定义奖励本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,包括如下步骤:S1、搭建智能网联环境下交叉口信号灯与网联车辆的通信场景,设定车辆与信号灯的通信距离阈值,当车辆进入信号灯的控制范围时,双方可进行信息交互;S2、收集信号交叉口网联车辆的运行数据和信号灯的SPaT信息,构建静态数据集;S3、将车辆在交叉口的行驶过程模拟成马尔科夫决策过程,在步骤S2的静态数据集中在离线状态下通过强化学习方法训练车辆智能体,得到交叉口通行策略;S4、将训练后的策略应用于交叉口的车辆控制,通过控制车辆加速度使车辆按照最优化的轨迹运行。2.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤S1中,搭建通信场景的具体过程为:在智能网联交通环境下,基于V2I通信,道路设施与网联车辆通过通信设备交换车辆运行轨迹和信号灯SPaT信息;定义通信距离阈值R
c
,当信号灯与车辆距离小于R
c
时,车辆位于通信区域内,能根据网联交叉口系统提供的策略行进,此时的通信范围是以信号交叉口为圆心,以R
c
为半径的圆形区域;否则,车辆将按照自身的跟驰行为行进。3.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤S2中收集的车辆运行数据,包括车辆到交叉口停止线的距离、速度、加速度、绿灯剩余时间的信息。4.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤S3中,得到交叉口通行策略的具体步骤如下:S301、将车辆通过交叉口的行驶过程模拟成马尔科夫决策过程,马尔科夫决策过程用五元组(S,A,R,P,γ)来描述,其中:S和A为环境状态和智能体动作的集合;R为奖励函数;P是状态转移函数;γ是折扣因子;S302、将网联车辆作为智能体,通过四维向量定义状态S,具体公式为:s
t
=[d
r
(t),v
r
(t),φ(t),G(t)]
T
;其中,d
r
(t)代表车辆所处的位置;v
r
(t)代表车辆速度;φ(t)代表绿灯剩余时间,若车辆行进方向处于红灯状态,φ(t)值为0;G(t)为红灯剩余时间;S303、智能体动作A表示车辆的加速度控制,即加速度限值a
t
∈[d
m
,u
m
]范围内的连续动作空间;其中d
m
为加速度的下限值,u
m
为加速度的上限值;S304、将车辆通过交叉口的时长、车辆通过交叉口的能量消耗以及TTC作为奖励函数R的指标,TTC表示前车与后车保持当前速度差时,后车追上前车发生碰撞需要的时间:其中,TTC
i
...

【专利技术属性】
技术研发人员:张健史晓宇姜夏张海燕王博钱品政
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1