基于策略梯度的多模式交通自适应信号控制方法及装置制造方法及图纸

技术编号：29967417 阅读：16 留言：0更新日期：2021-09-08 09:37

本发明专利技术公开了一种基于策略梯度的多模式交通自适应信号控制方法及装置，方法包括：获取目标交叉口和多模式交通流信息；根据交叉口信息进行仿真建模还原；构建多模式交通仿真流量生成函数；依据公交、社会车辆、行人及非机动车的不同特性提取多模式交通状态；构建优化人均延误变化量的奖励值；设计基于流量的经验回放池并进行采样；以改进的策略梯度框架训练神经网络；输出多模式交通自适应信号控制智能体。本发明专利技术提供的方法综合考虑了公交、社会车辆、行人及非机动车等多模式交通的权益，为道路交通管理者提供决策依据。路交通管理者提供决策依据。路交通管理者提供决策依据。

全部详细技术资料下载

【技术实现步骤摘要】
基于策略梯度的多模式交通自适应信号控制方法及装置

[0001]本专利技术属于城市交通信号控制领域。

技术介绍

[0002]城市交通拥堵已经成为困扰全球的问题，为市民的生存环境、经济和社会都带来严重的负面影响。城市交通灯信号控制是缓解道路拥堵的重要方式，加强和优化交通信号管控可以充分提升现有设施的利用率，对促进城市经济活动和提升人民生活水平都起到至关重要的作用。
[0003]近年来，一些研究证明使用强化学习方法训练交通信号控制智能体可以有效提升交叉口车辆通行效率。然而，此类方法多以小汽车的延误、拥堵、通过量等为优化指标，缺乏对公交、行人及非机动车的考量，难以适应混合交通状况的实际需求。另外，当前基于强化学习的信控方法中交通流量输入数据单一，经验回放池抽样随机，导致智能体训练速度慢且泛化性差。已有研究中，专利申请文件中202010294012.5通过构建深度Q学习框架，采用卷积神经网络用于值函数逼近，训练出最优策略智能体，实现针对车辆的时变交通信号控制；同样的，专利申请文件中201910629489.1通过建立交通仿真环境，设计评判网络和交通信号生成网络，以车辆排队长度变化为奖励，基于仿真数据训练出适应复杂交通状况的自适应信号控制方法，可在一定程度上缓解拥堵。但是都偏向于针对社会车辆的模型和优化目标，缺乏公交、行人及非机动车等多模式交通在交叉口的利益考量，同时训练框架中交通流量输入缺乏多样性，训练数据的存储和抽样学习方法中存在缺陷，导致训练速度慢且不充分。

技术实现思路

[0004]专利技术目的：...

【技术保护点】

【技术特征摘要】
1.基于策略梯度的多模式交通自适应信号控制方法，其特征在于，具体包括如下步骤：步骤1：获取目标交叉口数据和多模式交通流数据；所述目标交叉口数据包括目标交叉口机动车进口道各方向上机动车数量及排队长度、公交站位置、非机动车道及人行道位置；所述多模式交通流数据包括公交的班次，路线，速度，靠站时间，流量以及在目标交叉口的排队长度，社会车辆的流量，速度和在目标交叉口的排队长度，行人及非机动车的流量，速度和在目标交叉口的排队长度；步骤2：对目标交叉口建立仿真模型，在仿真模型中标定公交车，社会车辆和行人及非机动车的参数，并设置公交车，社会车辆和行人及非机动车的生成规则；步骤3：初始化仿真模型，并在仿真模型中生成公交车，社会车辆和行人及非机动车；步骤4：在仿真模型中计算目标叉口的多模式交通状态其中表示时刻t
k
时的机动车的状态列表，所述机动车包括公交车和社会车辆，表示时刻t
k
时行人及非机动车的状态列表，k＝1，2，
…
sim，sim表示仿真时间的总个数；步骤5：在仿真模型中根据社会车辆、公交车和行人及非机动车的平均载客人数计算时刻t
k
时目标交叉口的拥挤度系数以及公交车和行人的排队长度比例系数步骤6：将时刻t
k
时的目标叉口的多模式交通状态输入至神经网络中，得到时刻t
k
时的动作相位步骤7：仿真模型以行人及非机动车，社会车辆和公交车延误最小为目标执步骤6中的动作相位Δt秒，在时刻t
k+1
时得到奖励值t
k+1
＝t
k
+Δt；步骤8：根据步骤4计算时刻t
k+1
时的多模式交通状态将作为一组数据；若小于预设的低流量阈值，则将放入预设的低流量经验回放池，若大于预设的高流量阈值，则将放入预设的高流量经验回放池，若大于等于低流量阈值小于等于高流量阈值，则将放入预设的中流量经验回放池；步骤9：令k＝k+1，判断k是否大于等于sim，若是则转步骤10，否则返回骤5；步骤10：从每个经验回放池采集组数据，N
batch
为被采集的数据组的总个数，根据采集的数据更新神经网络的参数，从而得到更新后的神经网络；步骤11：判断神经网络参数的更新数次是否大于预设的阈值N
episode
；若是则停止计算，否则返回步骤3。2.根据权利要求1所述的基于策略梯度的多模式交通自适应信号控制方法，其特征在于，所述步骤3在仿真模型中生成公交车，机动车，行人及非机动车具体为：生成公交车：第i班次公交车按照时间间隔进入仿真模型中，其中是第i班次公交车的发车间隔时间，e
i
表示第i班次公交车到站时间的误差，
N(.)表示高斯分布；生成行人及非机动车：根据行人及非机动车的流量和到达率在仿真模型口中随机生成行人及非机动车，所述行人及非机动车的到达率随仿真时间的分布为其中T
sim
表示总仿真时间，其中f
p
表示行人及非机动车的高峰小时流量；生成社会车辆：根据社会车辆的流量和到达率在仿真模型中随机生成社会车辆，社会车辆到达率随仿真时间的分布为其中f
c
表示社会车辆的高峰小时流量。3.根据权利要求1所述的基于策略梯度的多模式交通自适应信号控制方法，其特征在于，所述步骤4中时刻t
k
时的机动车的状态列表d
m
表示仿真模型的目标交叉口中时刻t
k
时第m个车道组的首车延误时长，g表示车道组的总数量，l
m
表示仿真模型的目标交叉口中时刻t
k
时第m个车道组的排队长度，其中表示时刻t
k
时第m个车道组中排队的社会车辆的数量，K
car
...

【专利技术属性】
技术研发人员：王昊，王雷震，董长印，杨朝友，
申请(专利权)人：扬州市法马智能设备有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人