自适应周期级交通信号控制的方法和系统技术方案

技术编号:37816968 阅读:22 留言:0更新日期:2023-06-09 09:47
本申请描述了用于自适应周期级交通信号控制的方法、系统和处理器可读介质。一种自适应周期级交通信号控制器和控制方法,其在连续动作空间内运作。一种名为近端策略优化(Proximal Policy Optimization,PPO)的强化学习算法,其为一种用于强化学习的行为

【技术实现步骤摘要】
【国外来华专利技术】自适应周期级交通信号控制的方法和系统
[0001]相关申请数据
[0002]本申请要求名称均为“自适应周期级交通信号控制的方法和系统(Method and System for Adaptive Cycle

Level Traffic Signal Control)”的2020年9月18日提交的美国临时专利申请第63/080,455号和2021年5月21日提交的美国非临时专利申请第17/327,523号的优先权。


[0003]本申请大体上涉及交通信号控制的方法和系统,尤其涉及自适应周期级交通信号控制。

技术介绍

[0004]交通拥堵会造成大量的时间浪费、燃料浪费以及污染。由于财力和空间限制以及环境和可持续性问题,建造新的基础设施来消除这些问题往往不切实际。因此,为了提高城市交通网络的容量,研究人员已探索使用技术来最大限度地提高现有基础设施的性能。优化交通信号的运行有希望减少城市网络中司机的延误。
[0005]交通信号用于向交通环境中运行的车辆的司机传达交通规则。典型的交通信号控制器控制交通信号,该交通信号在由交通网络中的单个交叉口组成的交通环境中管理车辆交通。因此,例如,单个交通信号控制器可控制由面向四个方向(北、南、东、西)的红/黄/绿交通灯组成的交通信号,但应理解,一些交通信号可控制由多于或少于四个交通方向组成的环境中的交通,并且可包括其他信号类型,例如面向同一方向的用于不同车道的不同信号、转弯箭头、街道公共交通信号等。
[0006]交通信号通常按周期运行,每个周期由若干阶段组成。单个阶段可对应于交通信号的各种灯的固定状态,例如,绿灯面向南北而红灯面向东西,或黄灯面向南北而红灯面向东西,但一些阶段可能包括另外的非固定状态,如计时器针对人行横道进行倒计时。通常,交通信号周期由每个阶段通常以固定次序在周期中重复一次而组成。
[0007]图1示出由依序从第一阶段102到第八阶段116的八个阶段组成的示例性交通信号周期100。在此示例中,除非另有说明,否则所有其他灯在某一阶段期间都是红色。
[0008]在第一阶段102,即,阶段1,交通信号对北行交通(即,在朝南的灯柱上)显示绿色左转箭头,指示为“NL”,并对南行交通(即,在朝北的灯柱上)显示绿色左转箭头,指示为“SL”。在第二阶段104,即,阶段2,交通信号对南行交通显示绿色左转箭头和绿色“直行”灯或箭头,分别指示为“SL”和“ST”。在第三阶段106,即,阶段3,交通信号对北行交通显示绿色左转箭头和绿色“直行”灯或箭头,分别指示为“NL”和“NT”。在第四阶段108,即,阶段4,交通信号对北行和南行交通均显示黄色左转箭头(示为虚线)和绿色“直行”灯或箭头。在第五阶段110,即,阶段5,交通信号对东行交通(即,在朝西的灯柱上)显示绿色左转箭头,指示为“EL”,并对西行交通(即,在朝东的灯柱上)显示绿色左转箭头,指示为“WL”。在第六阶段112,即,阶段6,交通信号对西行交通显示绿色左转箭头和绿色“直行”灯或箭头,分别指示
为“WL”和“WT”。在第七阶段114,即,阶段7,交通信号对东行交通显示绿色左转箭头和绿色“直行”灯或箭头,分别指示为“EL”和“ET”。在第八阶段116,即,阶段8,交通信号对西行和东行交通均显示黄色左转箭头(示为虚线)和绿色“直行”灯或箭头。
[0009]在完成阶段8 116后,交通信号返回到阶段1 102。交通信号控制器优化通常包括优化交通信号周期的每个阶段的持续时间,以实现交通目标。
[0010]交通信号控制最常见的方法是固定时间式以及致动式。在固定时间交通信号控制器配置中,交通信号周期的每个阶段都具有固定的持续时间。固定时间控制器使用历史交通数据来确定最优交通信号模式;然后部署优化的固定时间信号模式(即周期的阶段持续时间集)来控制实际交通信号,此后固定该模式而不改变。
[0011]与固定时间控制器相比,致动信号控制器从传感器接收反馈以对交通流作出响应;然而,致动信号控制器并不明确优化延迟,而是通常响应于即时交通状况而调整信号模式,不会随着时间推移来适应交通流。因此,一个阶段的持续时间可能根据基于传感器数据的当前交通状况而延长,但没有机制用于使用过往阶段或周期的数据来随时间推移而优化交通信号操作,或根据优化例如平均或聚合车辆延迟等性能指标进行决策。
[0012]自适应交通信号控制器(adaptive traffic signal controller,ATSC)更先进,性能可优于其他控制器,如固定时间或致动控制器。ATSC不断修改信号定时,以优化预定目标或性能指标。一些ATSC,包括SCOOT、SCATS、PRODYN、OPAC、UTOPIA和RHODES,使用交通环境的内部模型优化信号,该模型通常简单化并且很少能跟进当前状况。这些ATSC的优化算法大多是探索式的和次优的。由于交通和司机行为的随机性,很难设计出精确的交通模型。更现实的模型也更复杂,更难控制,有时会导致计算延迟过长而无法实现实时交通控制。因此,在控制器的复杂性与实用性之间存在权衡。
[0013]然而,随着作为一种用于优化的无模型闭环控制方法的强化学习(Reinforcement Learning,RL)的出现,这一领域有了一些改进。RL算法可在与环境交互和评估自身性能的同时学习最优控制策略。最近,研究人员在ATSC中使用了采用卷积神经网络的深度强化学习(Deep Reinforcement Learning,DRL)。在以下文献中描述了DRL交通信号控制系统的示例:W.Gessions和S.Razavi的“使用深度强化学习代理进行交通信号控制(Using a Deep Reinforcement Learning Agent for Traffic Signal Control)”,CoRR,卷abs/1611.0,2016年;J.Gao、Y.Shen、J.Liu、M.Ito和N.Shiratori的“自适应交通信号控制:具有经验回放和目标网络的深度强化学习算法(Adaptive Traffic Signal Control:Deep Reinforcement Learning Algorithm with Experience Replay and Target Network)”,CoRR,卷abs/1705.0,2017年;S.M.A.Shabesary和B.Abdulhai的“用于自适应交通信号控制的深度学习与离散强化学习(Deep Learning vs.Discrete Reinforcement Learning for Adaptive Traffic Signal Control)”,2018年第21届智能交通系统国际会议(ITSC),2018年,第286

293页,所有这些文献都通过全文引用的方式并入本文。
[0014]与使用函数逼近方法的其他RL方法相比,深度强化学习能够处理大型状态空间问题并获得更好的性能。在一些DRLATSC中,将街道表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练强化学习模型以生成交通信号周期数据的方法,其特征在于,所述方法包括:通过以下方式处理指示受交通信号影响的交通环境的初始状态的训练数据样本:使用所述强化学习模型通过将策略应用于所述训练数据样本和一个或多个过往训练数据样本来生成交通信号周期数据,所述交通信号周期数据包括交通信号周期的一个或多个相应阶段的一个或多个阶段持续时间,每个阶段持续时间是从连续值范围中选择的值;在将生成的交通信号周期数据应用于所述交通信号之后,确定所述交通环境的更新状态;通过将奖励函数应用于所述交通环境的所述初始状态和所述交通环境的所述更新状态来生成奖励;根据所述奖励调整所述策略;重复处理训练数据样本的步骤一次或多次,所述训练数据样本指示所述交通环境的所述更新状态。2.根据权利要求1所述的方法,其特征在于:所述交通环境是模拟交通环境;并且所述交通信号是模拟交通信号。3.根据权利要求1或2所述的方法,其特征在于,所述一个或多个阶段持续时间包括所述交通信号的至少一个周期的每个阶段的阶段持续时间。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述一个或多个阶段持续时间由所述交通信号的周期的一个阶段的阶段持续时间组成。5.根据权利要求1至4中任一项所述的方法,其特征在于:所述强化学习模型是行为

评判模型;所述策略是行为策略;并且所述奖励函数是评判奖励函数。6.根据权利要求5所述的方法,其特征在于,所述行为

评判模型是近端策略优化(proximal policy optimization,PPO)模型。7.根据权利要求1至6中任一项所述的方法,其特征在于,每个训练数据样本包括交通数据,包括所述交通环境中的多个车辆中的每个车辆的位置数据和速度数据。8.根据权利要求1至7中任一项所述的方法,其特征在于,每个训练数据样本包括交通数据,包括所述交通环境的多个区域中的每个区域的交通密度数据和交通速度数据。9.根据权利要求1至8中任一项所述的方法,其特征在于:确定所述交通环境的更新状态包括确定所述交通环境中的一个或多个静止车辆队列中的每个静止车辆队列的长度,所述长度指示所述队列中的静止车辆的数目;并且所述一个或多个过往训练数据样本包括:对应于一个或多个队列峰值时间的一个或多个过往训练数据样本,每个队列峰值时间是所述队列中的一个队列的长度处于局部最大值时的时间;对应于一个或多个队列谷值时间的一个或多个过往训练数据样本,每个队列谷值时间是所述队列中的一个队列的长度处于局部最小值时的时间。10.根据权利要求1至9中任一项所述的方法,其特征在于,所述一个或多个过往训练数
据样本对应于一个或多个阶段转变时间,每个阶段转变时间是所述交通信号在所述交通信号周期的两个阶段之间转变时的时间。11.根据权利要求1至10中任一项所述的方法,其特征在于,所述奖励函数应用于所述交通环境的所述初始状态和所述交通环境的所述更新状态,以根据在前一交通信号周期内在所述交通环境中的静止车辆的估计数目来计算所述奖励。12.根据权利要求11所述的方法,其特征在于,所述一个或多个过往训练数据样本对应于一个或多个阶段转变时间,每个阶段转变时间是所述交通信号在所述交通信号周期的两个阶段之间转变时的时间。13.根据权利要求1至12中任一项所述的方法,其特征在于,每个训练数据样本包括交通信号阶段数据,所述交通信号阶段数据指示:所述交通信号周期的当前阶段;和当前阶段期间流逝的时间。14.根据权利要求1至...

【专利技术属性】
技术研发人员:索海尔
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1