自适应周期级交通信号控制的方法和系统技术方案

技术编号：37816968 阅读：22 留言：0更新日期：2023-06-09 09:47

本申请描述了用于自适应周期级交通信号控制的方法、系统和处理器可读介质。一种自适应周期级交通信号控制器和控制方法，其在连续动作空间内运作。一种名为近端策略优化(Proximal Policy Optimization，PPO)的强化学习算法，其为一种用于强化学习的行为

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】自适应周期级交通信号控制的方法和系统
[0001]相关申请数据
[0002]本申请要求名称均为“自适应周期级交通信号控制的方法和系统(Method and System for Adaptive Cycle
‑
Level Traffic Signal Control)”的2020年9月18日提交的美国临时专利申请第63/080,455号和2021年5月21日提交的美国非临时专利申请第17/327,523号的优先权。

[0003]本申请大体上涉及交通信号控制的方法和系统，尤其涉及自适应周期级交通信号控制。

技术介绍

[0004]交通拥堵会造成大量的时间浪费、燃料浪费以及污染。由于财力和空间限制以及环境和可持续性问题，建造新的基础设施来消除这些问题往往不切实际。因此，为了提高城市交通网络的容量，研究人员已探索使用技术来最大限度地提高现有基础设施的性能。优化交通信号的运行有希望减少城市网络中司机的延误。
[0005]交通信号用于向交通环境中运行的车辆的司机传达交通规则。典型的交通信号控制器控制交通信号，该交通信号在由交通网络中的单个交叉口组成的交通环境中管理车辆交通。因此，例如，单个交通信号控制器可控制由面向四个方向(北、南、东、西)的红/黄/绿交通灯组成的交通信号，但应理解，一些交通信号可控制由多于或少于四个交通方向组成的环境中的交通，并且可包括其他信号类型，例如面向同一方向的用于不同车道的不同信号、转弯箭头、街道公共交通信号等。
[0006]交通信号通常按周期运行，每个...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练强化学习模型以生成交通信号周期数据的方法，其特征在于，所述方法包括：通过以下方式处理指示受交通信号影响的交通环境的初始状态的训练数据样本：使用所述强化学习模型通过将策略应用于所述训练数据样本和一个或多个过往训练数据样本来生成交通信号周期数据，所述交通信号周期数据包括交通信号周期的一个或多个相应阶段的一个或多个阶段持续时间，每个阶段持续时间是从连续值范围中选择的值；在将生成的交通信号周期数据应用于所述交通信号之后，确定所述交通环境的更新状态；通过将奖励函数应用于所述交通环境的所述初始状态和所述交通环境的所述更新状态来生成奖励；根据所述奖励调整所述策略；重复处理训练数据样本的步骤一次或多次，所述训练数据样本指示所述交通环境的所述更新状态。2.根据权利要求1所述的方法，其特征在于：所述交通环境是模拟交通环境；并且所述交通信号是模拟交通信号。3.根据权利要求1或2所述的方法，其特征在于，所述一个或多个阶段持续时间包括所述交通信号的至少一个周期的每个阶段的阶段持续时间。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述一个或多个阶段持续时间由所述交通信号的周期的一个阶段的阶段持续时间组成。5.根据权利要求1至4中任一项所述的方法，其特征在于：所述强化学习模型是行为
‑
评判模型；所述策略是行为策略；并且所述奖励函数是评判奖励函数。6.根据权利要求5所述的方法，其特征在于，所述行为
‑
评判模型是近端策略优化(proximal policy optimization，PPO)模型。7.根据权利要求1至6中任一项所述的方法，其特征在于，每个训练数据样本包括交通数据，包括所述交通环境中的多个车辆中的每个车辆的位置数据和速度数据。8.根据权利要求1至7中任一项所述的方法，其特征在于，每个训练数据样本包括交通数据，包括所述交通环境的多个区域中的每个区域的交通密度数据和交通速度数据。9.根据权利要求1至8中任一项所述的方法，其特征在于：确定所述交通环境的更新状态包括确定所述交通环境中的一个或多个静止车辆队列中的每个静止车辆队列的长度，所述长度指示所述队列中的静止车辆的数目；并且所述一个或多个过往训练数据样本包括：对应于一个或多个队列峰值时间的一个或多个过往训练数据样本，每个队列峰值时间是所述队列中的一个队列的长度处于局部最大值时的时间；对应于一个或多个队列谷值时间的一个或多个过往训练数据样本，每个队列谷值时间是所述队列中的一个队列的长度处于局部最小值时的时间。10.根据权利要求1至9中任一项所述的方法，其特征在于，所述一个或多个过往训练数
据样本对应于一个或多个阶段转变时间，每个阶段转变时间是所述交通信号在所述交通信号周期的两个阶段之间转变时的时间。11.根据权利要求1至10中任一项所述的方法，其特征在于，所述奖励函数应用于所述交通环境的所述初始状态和所述交通环境的所述更新状态，以根据在前一交通信号周期内在所述交通环境中的静止车辆的估计数目来计算所述奖励。12.根据权利要求11所述的方法，其特征在于，所述一个或多个过往训练数据样本对应于一个或多个阶段转变时间，每个阶段转变时间是所述交通信号在所述交通信号周期的两个阶段之间转变时的时间。13.根据权利要求1至12中任一项所述的方法，其特征在于，每个训练数据样本包括交通信号阶段数据，所述交通信号阶段数据指示：所述交通信号周期的当前阶段；和当前阶段期间流逝的时间。14.根据权利要求1至...

【专利技术属性】
技术研发人员：索海尔，
申请(专利权)人：华为云计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人