一种同时考虑行程时间和公平性的交通灯控制方法及系统技术方案

技术编号：32972023 阅读：31 留言：0更新日期：2022-04-09 11:40

本发明专利技术提供一种同时考虑行程时间和公平性的交通灯控制方法及系统，其中方法包括：将行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每个路口的奖励以及下一步的状态；通过DQN算法，根据行程时间策略Q网络的元组型数据缓存器中的数据对行程时间策略Q网络进行更新，根据公平性策略Q网络的元组型数据缓存器中的数据对公平性策略Q网络进行更新；建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至中心Q网络。本发明专利技术同时考虑路网中车辆的平均行程时间以及公平性，达到在行程时间相同下，公平性更好的效果。的效果。的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种同时考虑行程时间和公平性的交通灯控制方法及系统

[0001]本专利技术涉及交通灯控制
，特别是涉及一种同时考虑行程时间和公平性的交通灯控制方法及系统。

技术介绍

[0002]交通灯控制的目的是为了减少交通拥堵问题，交通拥堵问题不仅影响驾驶人乘车人的心情，浪费时间，浪费燃料，车辆等待时候的多排出的CO2、尾气也会影响环境，此外，该问题也会影响城市面貌；再进一步，人们通勤时间的增加也会影响所在企业的生产效率。现有的交通灯控制方法可以分为两大类：传统方法和基于深度强化学习的方法。
[0003]传统方法分为定时控制、感应控制和自适应控制。定时控制：交通信号根据预设的配时方案运行。感应控制：事先设定好相位顺序，每个相位先持续预设的相位绿灯最短时间，而后根据车道车辆状态来决定是否继续延长绿灯时间(多次延长不能超过预设的最大值)。自适应控制：根据检测到交通流状态，对信号配时进行调整，按照自适应程度不同，可分为多方案切换自适应控制和实时自适应控制，多方案切换的自适应控制根据不同的交通状态预先计算多组信号灯配时方案，而后根据实时监测到的交通流状态来判定下一周期运行哪组方案；实时自适应控制则根据实时监测到的交通流状态，重新计算最新的交通信号灯配时方案，而后在下一周期运行。
[0004]但是，现实中的交通情况可能受很多其他因素的影响，例如驾驶员的偏好，受行人，骑行的人的行为影响，天气和道路本身的特点也会影响交通情况。固定配时和感应控制等方法无法合理应对这样的变化。自适应控制方法虽然能够根据交通状况调整信号灯方案，...

【技术保护点】

【技术特征摘要】
1.一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，包括：建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器；通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值；将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境，将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境，得到每个路口的奖励以及下一步的状态；通过DQN算法，根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新，根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新；建立中心Q网络，并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络。2.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境，具体地：选定交通仿真环境，并初始化两个相同的交通仿真环境，分别作为行程时间策略Q网络的交通仿真环境和公平性策略Q网络的交通仿真环境；其中，所述交通仿真环境包括：路网，交通信号灯及车辆。3.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述行程时间策略Q网络和所述公平性策略Q网络的输入维度为52维，输出维度为8维。4.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理之前，还包括：通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行冷启动处理。5.如权利要求4所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述冷启动处理，包括：初始化仿真回合数；设置更新间隔、每轮更新次数、每回合仿真步数及缓存值。6.如权利要求5所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理，分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值，包括：分别获取行程时间策略Q网络的交通仿真环境及公平性策略Q网络的交通仿真环境中各个路口的交通状态，并将行程时间策略Q网络的交通仿真环境中各个路口的交通状态输入至行程时间策略Q网络中，将公平性策略Q网络的交通仿真环境中各个路口的交通状态输入至公平性策略Q网络中，得到行程时间策略Q值和公平性策略Q值；根据ε
–
greedy策略选择行程时间策略Q值的最大的动作和公平性策略Q值的最大的动作，得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值。
7.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法，其特征在于，所述行程时间策略Q网络的交通仿真环境中的每个路口的奖励是该路口所有进口道的排队长度之和的相反数；所述公平性策略Q网络的交通仿真...

【专利技术属性】
技术研发人员：余超，梁泽年，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人