当前位置: 首页 > 专利查询>中山大学专利>正文

一种同时考虑行程时间和公平性的交通灯控制方法及系统技术方案

技术编号:32972023 阅读:31 留言:0更新日期:2022-04-09 11:40
本发明专利技术提供一种同时考虑行程时间和公平性的交通灯控制方法及系统,其中方法包括:将行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境,将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境,得到每个路口的奖励以及下一步的状态;通过DQN算法,根据行程时间策略Q网络的元组型数据缓存器中的数据对行程时间策略Q网络进行更新,根据公平性策略Q网络的元组型数据缓存器中的数据对公平性策略Q网络进行更新;建立中心Q网络,并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至中心Q网络。本发明专利技术同时考虑路网中车辆的平均行程时间以及公平性,达到在行程时间相同下,公平性更好的效果。的效果。的效果。

【技术实现步骤摘要】
一种同时考虑行程时间和公平性的交通灯控制方法及系统


[0001]本专利技术涉及交通灯控制
,特别是涉及一种同时考虑行程时间和公平性的交通灯控制方法及系统。

技术介绍

[0002]交通灯控制的目的是为了减少交通拥堵问题,交通拥堵问题不仅影响驾驶人乘车人的心情,浪费时间,浪费燃料,车辆等待时候的多排出的CO2、尾气也会影响环境,此外,该问题也会影响城市面貌;再进一步,人们通勤时间的增加也会影响所在企业的生产效率。现有的交通灯控制方法可以分为两大类:传统方法和基于深度强化学习的方法。
[0003]传统方法分为定时控制、感应控制和自适应控制。定时控制:交通信号根据预设的配时方案运行。感应控制:事先设定好相位顺序,每个相位先持续预设的相位绿灯最短时间,而后根据车道车辆状态来决定是否继续延长绿灯时间(多次延长不能超过预设的最大值)。自适应控制:根据检测到交通流状态,对信号配时进行调整,按照自适应程度不同,可分为多方案切换自适应控制和实时自适应控制,多方案切换的自适应控制根据不同的交通状态预先计算多组信号灯配时方案,而后根据实时监测到的交通流状态来判定下一周期运行哪组方案;实时自适应控制则根据实时监测到的交通流状态,重新计算最新的交通信号灯配时方案,而后在下一周期运行。
[0004]但是,现实中的交通情况可能受很多其他因素的影响,例如驾驶员的偏好,受行人,骑行的人的行为影响,天气和道路本身的特点也会影响交通情况。固定配时和感应控制等方法无法合理应对这样的变化。自适应控制方法虽然能够根据交通状况调整信号灯方案,但是其引入了很强的假设条件,与现实交通情况不一致,因此也无法更好地优化交通状况。并且传统的方法没有考虑每辆车之间的公平性。
[0005]基于深度强化学习的方法:该类方法将交通信号灯控制建模成强化学习问题,将路口看作智能体,智能体的动作是交通灯相位,状态是路口目前的交通状况(各车道的车辆数,排队长度等)。智能体根据当前时刻的状态选择一个动作,持续运行一段时间,得到奖励(由优化的目标决定),根据奖励来改进自身的策略。如IntelliLight采用DQN算法,状态为本路口每个车道的车辆数,排队长度,图像表示;动作为是否切换到下一相位;奖励为进口道上排队长度,等待时间,延迟等指标的加权和。Colight采用DQN算法+图神经网络,状态为本路口以及周围4个路口每个车道的车辆数,动作为下一相位,奖励为进口道上排队长度的相反数。
[0006]但是,现有的基于深度强化学习的方法通常只优化单个目标,即车辆的平均行程时间,没有考虑每辆车之间的公平性。

技术实现思路

[0007]针对城市路网中的交通灯控制问题,本专利技术提供一种同时考虑行程时间和公平性的交通灯控制方法及系统,同时考虑路网中车辆的平均行程时间以及公平性,使得让每辆
车延误时间占总行程时间的比例尽量接近。
[0008]本专利技术第一方面提供一种同时考虑行程时间和公平性的交通灯控制方法,包括:
[0009]建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器;
[0010]通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理,分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值;
[0011]将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境,将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境,得到每个路口的奖励以及下一步的状态;
[0012]通过DQN算法,根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新,根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新;
[0013]建立中心Q网络,并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络。
[0014]进一步地,所述建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境,具体地:
[0015]选定交通仿真环境,并初始化两个相同的交通仿真环境,分别作为行程时间策略Q网络的交通仿真环境和公平性策略Q网络的交通仿真环境;其中,所述交通仿真环境包括:路网,交通信号灯及车辆。
[0016]进一步地,所述行程时间策略Q网络和所述公平性策略Q网络的输入维度为52维,输出维度为8维。
[0017]进一步地,所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理之前,还包括:
[0018]通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行冷启动处理。
[0019]进一步地,所述冷启动处理,包括:
[0020]初始化仿真回合数;
[0021]设置更新间隔、每轮更新次数、每回合仿真步数及缓存值。
[0022]进一步地,所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理,分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值,包括:
[0023]分别获取行程时间策略Q网络的交通仿真环境及公平性策略Q网络的交通仿真环境中各个路口的交通状态,并将行程时间策略Q网络的交通仿真环境中各个路口的交通状态输入至行程时间策略Q网络中,将公平性策略Q网络的交通仿真环境中各个路口的交通状态输入至公平性策略Q网络中,得到行程时间策略Q值和公平性策略Q值;
[0024]根据ε

greedy策略选择行程时间策略Q值的最大的动作和公平性策略Q值的最大的动作,得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值。
[0025]进一步地,所述行程时间策略Q网络的交通仿真环境中的每个路口的奖励是该路口所有进口道的排队长度之和的相反数;所述公平性策略Q网络的交通仿真环境中每个路
口的奖励通过以下公式计算:
[0026][0027]其中,R
Fairness
为公平性策略Q网络的交通仿真环境中每个路口的奖励,i表示车辆,n为车辆总数,tti
i
为第i辆车的实际行程时间/已通行路程的理想行程时间,tti
mean
为当前时刻所有车辆tti
i
的均值。
[0028]进一步地,所述通过DQN算法,根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新,根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新,包括:
[0029]分别从行程时间策略Q网络的元组型数据缓存器和公平性策略Q网络的元组型数据缓存器中各随机抽样128个样本,并将抽取到的样本输入至对应的Q网络,得到行程时间策略Q网络的Q值分布和公平性策略Q网络的Q值分布;
[0030]选取样本中的当前动作,得到对应的Q值;
[0031]将样本中的下一状态输入至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,包括:建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境、行程时间策略Q网络的元组型数据缓存器及公平性策略Q网络的元组型数据缓存器;通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理,分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值;将所述行程时间策略Q网络的结果值输入至行程时间策略Q网络的交通仿真环境,将公平性策略Q网络的结果值输入至公平性策略Q网络的交通仿真环境,得到每个路口的奖励以及下一步的状态;通过DQN算法,根据所述行程时间策略Q网络的元组型数据缓存器中的数据对所述行程时间策略Q网络进行更新,根据所述公平性策略Q网络的元组型数据缓存器中的数据对所述公平性策略Q网络进行更新;建立中心Q网络,并将更新完成的行程时间策略Q网络和更新完成的公平性策略Q网络蒸馏至所述中心Q网络。2.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述建立行程时间策略Q网络的交通仿真环境、公平性策略Q网络的交通仿真环境,具体地:选定交通仿真环境,并初始化两个相同的交通仿真环境,分别作为行程时间策略Q网络的交通仿真环境和公平性策略Q网络的交通仿真环境;其中,所述交通仿真环境包括:路网,交通信号灯及车辆。3.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述行程时间策略Q网络和所述公平性策略Q网络的输入维度为52维,输出维度为8维。4.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理之前,还包括:通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行冷启动处理。5.如权利要求4所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述冷启动处理,包括:初始化仿真回合数;设置更新间隔、每轮更新次数、每回合仿真步数及缓存值。6.如权利要求5所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述通过DQN算法分别对所述行程时间策略Q网络及所述公平性策略Q网络进行迭代处理,分别得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值,包括:分别获取行程时间策略Q网络的交通仿真环境及公平性策略Q网络的交通仿真环境中各个路口的交通状态,并将行程时间策略Q网络的交通仿真环境中各个路口的交通状态输入至行程时间策略Q网络中,将公平性策略Q网络的交通仿真环境中各个路口的交通状态输入至公平性策略Q网络中,得到行程时间策略Q值和公平性策略Q值;根据ε

greedy策略选择行程时间策略Q值的最大的动作和公平性策略Q值的最大的动作,得到行程时间策略Q网络的结果值及公平性策略Q网络的结果值。
7.如权利要求1所述的一种同时考虑行程时间和公平性的交通灯控制方法,其特征在于,所述行程时间策略Q网络的交通仿真环境中的每个路口的奖励是该路口所有进口道的排队长度之和的相反数;所述公平性策略Q网络的交通仿真...

【专利技术属性】
技术研发人员:余超梁泽年
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1