基于启发式深度Q网络的交通灯控制方法技术

技术编号:25711639 阅读:25 留言:0更新日期:2020-09-23 02:57
本发明专利技术公开了一种基于启发式深度Q学习的多路口交通信号控制方法,主要解决现有方法中的训练数据有相关性、交通灯控制策略不能快速收敛和控制效率低的问题。其方案是:读取城市交通路网信息,建立各个路口的车辆交通状态集合,并将读取的城市交通路网信息转换为邻接矩阵进行存储;从各个路口车辆交通状态集合中,获取各个路口状态集、动作集和动作奖励值;根据状态集、动作集、动作奖励值和邻接矩阵,利用启发式深度Q网络方法根据每个路口的状态不断地执行动作获取奖励再到下一状态,实现对城市路网交通灯进行控制。本发明专利技术能提高对路口交通信号灯的控制效率,改善了多路口交通信号控制器的性能,可用于城市交通管理,减少城市交通拥堵。

【技术实现步骤摘要】
基于启发式深度Q网络的交通灯控制方法
本专利技术属于智能交通控制领域,特别涉及一种交通灯控制方法,可用于城市交通管理,减少城市交通拥堵。
技术介绍
在城市智能交通控制领域,深度学习和强化学习是目前很热门的研究方向,并取得了不错的成效。强化学习是通过与城市道路环境的不断交互获取环境状态来学习最优的交通控制策略,形成城市交通的自适应控制系统。然而由于城市道路环境复杂度的提高会导致其在获取先验知识过程中,状态-动作空间的维度急剧增长。为解决此类问题,强化学习与深度学习结合形成的深度强化学习DRL同时利用深度学习的感知能力和强化学习的决策能力,对高维输入进行处理,表现出了良好的效果。深度学习可以从高维数据中提取判别信息,在大数据推理与机器学习研究方向具有良好的表现。将深度学习方法应用于自适应交通信号控制问题已经成为国内外研究的热点,可以进一步优化现有的交通信号控制方法,同时利用多智能体系统,结合实际的复杂路网情况分析多路口之间的协作关系,实现多路口交通信号控制。强化学习通过状态、动作和奖励与环境进行交互,其主要由智能体和环境组成。强化学习RL的模型如图2所示。RL通过不断的试错,从环境中获取奖励值,根据奖励值来改进智能体的动作选择,以获取最大的奖励。一个强化学习任务在满足马尔可夫性时被称作马尔可夫决策过程MDP,马尔可夫决策过程定义为如下所示五元组:其中i,j∈S,a∈Ai。式中,S表示环境状态空间的集合;i和j分别表示状态集中的一个状态,Ai表示agent在状态i的动作集;表示在状态i下采取动作a转移到状态j的转移概率,状态转移函数为T:S×A→Π(S);表示采取动作a从状态i转移到状态j的奖励值;γ为折扣因子,它控制着即时奖励和未来奖励的重要程度,γ∈[0,1]。在每个迭代次数t,agent从环境中感知状态st∈S,并选择一个执行动作a,采取行动后根据状态转移概率转移到下一个状态st+1∈S,然后观察获取奖励值rt。马尔科夫性指agent的下一个状态仅与当前状态有关,而与历史状态无关。深度学习DL通过将机器要学习的事务转换成数据,然后建立一个多层神经网络模型不断地训练这些数据,直到得到的结果满足要求,保留这个模型的各项参数,否则,继续调整网络的参数设置,直到输出满足要求为止,是一种新的机器学习方法。主要用于处理一些大数据问题,包括文字、图像、视频、语音等多种类型数据。深度学习通过堆叠多个层,将前层特征通过神经网络处理,组合成更加抽象的后层来表示数据中隐藏的类别或特征,即将上一层输出作为下一层的输入,以发现数据的分布式特征表示,与其他的机器学习方法相比,深度学习注重模型结构的深度,通过逐层特征变换,从高维数据中学习特征,获取更多的内在信息,它的主要优点包括可以获取更高的准确率,可以更好的适应不同的领域和应用,不需要复杂的特征工程。Wiering等人使用多智能体强化学习算法来学习交通信号控制,即交通控制TC1方法,以最大程度地减少城市中汽车的总体等待时间,选择的交通信号是通过累计所有汽车的预计等候时间来设置的,但是该算法需要一个中心服务器来控制每个路口的交通信号,由于城市交通的动态性、复杂性和不确定性,服务器并不能做出及时的交通控制。BalajiPG等人提出了一种基于多智能体的分布式交通信号控制,所提出的基于自适应强化学习交通信号控制具有完全分布式的体系结构,其中的智能体能够相互交互,以有效地计算最佳的绿灯时间值,从而减少总行驶时间延迟并提高车辆平均速度,并通过智能体之间的即时通信共享交通路网信息,提高了每个智能体的预测能力,但是交通状态信息急剧增多,智能交通控制的难度呈指数级增长。Bakker和Kuyer等人在Wiering的基础上,提出了两种改进方法。一种是结合邻接路口的交通拥堵情况,计算车辆的全局拥堵因子,得到不同的状态转移概率和值函数。另一种方法通过多个路口控制器之间的不断通信,利用协作图建模来实现多路口协作的交通信号控制。通过这两种方法虽然增加了路口之间的协作,但是由于要不断更新维护全局拥堵因子,降低了深度Q学习算法效率,且使得深度Q学习算法灵活性、鲁棒性变差。XiaoyuanLiang等人提出了一种深度强化学习DRL模型来控制交通信号周期,根据从不同传感器收集的数据来确定交通信号的持续时间。该模型通过收集交通数据并将整个交叉路口划分为小网格,将复杂的交通情景量化为状态;动作是交通信号灯的持续时间变化,这些动作被建模为高维马尔可夫决策过程;奖励是两个周期之间的累积等待时间差。但是该模型中各智能体独立学习,并没有相互合作,这使得深度强化学习算法收敛速度很慢,很难学到一个最优的交通灯控制策略。
技术实现思路
本专利技术的目的在于针对上述现有技术的不足,提出基于启发式深度Q网络的交通灯控制方法,以在动作选择阶段,通过结合启发式函数和原有的策略指导交通灯控制器的动作选择,促进其对状态动作空间的探索,加快收敛速度,提高路口交通信号控制器的控制性能。为实现上述目的,本专利技术的技术方案包括如下步骤:(1)读取城市交通路网信息,建立各个路口的车辆交通状态集合,并将读取的城市交通路网信息转换为邻接矩阵进行存储;(2)从(1)建立的各个路口车辆交通状态集合中,获取各个路口信息,即各时刻的状态集、动作集和动作奖励值;(3)根据(2)获取的信息和(1)中的邻接矩阵,利用启发式深度Q网络方法实现对城市路网交通灯进行控制:3a)初始化第i个路口的评估网络参数θi=1和目标网络参数θi-=1,初始化学习率α=0.05,折扣因子γ=0.99,ε贪心策略中的ε初始为1迭代递减至0.01,采样间隔batch=32,目标网络更新步长C=50,仿真时间t的初始值为0,初始化第i个路口的奖励rti=0,迭代次数上限T=50000;3b)设置启发式函数3c)在时刻t,将第i个路口的状态输入到评估网络中,对任意一个动作a,计算评估网络的输出值和启发函数的函数值;3d)选择并执行信号灯动作获得奖励rti,再进入下一状态令t=t+1;3e)用状态动作评估网络的输出值奖励rti和下一状态组成一个参考向量并将其存储在第i个路口的参考向量集Mi中,当该参考向量个数大于2000时,开始训练评估网络,执行3f),否则,执行3c);当该参考向量个数大于5000,则移除最早生成的参考向量;3f)从参考向量集Mi中采样得到参考向量的样本集,输入到评估网络中得到输出值根据评估网络的输出值和第j个邻接路口t-1时刻的评估网络的输出值更新第i个路口的评估网络的输出值3g)计算评估网络的损失函数,根据梯度下降方法更新评估网络参数θi,每隔50步,目标网络参数θi-=θi;3h)将当前迭代次数t与迭代次数上限T进行比较,判断迭代是否停止:若t>T,完成对城市路网交通灯的控制;否则,返回3c)。本专利技术与现有方法相比有如下优点:第一,本专利技术采用了先将参考向量存储到参考向量池,再对参考向量池进行采样的方法,避免顺序生成的训练数据的本文档来自技高网
...

【技术保护点】
1.一种基于启发式深度Q网络的交通灯控制方法,其特征在于,包括如下:/n(1)读取城市交通路网信息,建立各个路口的车辆交通状态集合,并将读取的城市交通路网信息转换为邻接矩阵进行存储;/n(2)从(1)建立的各个路口车辆交通状态集合中,获取各个路口信息,即各时刻的状态集、动作集和动作奖励值;/n(3)根据(2)获取的信息和(1)中的邻接矩阵,利用启发式深度Q网络方法实现对城市路网交通灯进行控制:/n3a)初始化第i个路口的评估网络参数θ

【技术特征摘要】
1.一种基于启发式深度Q网络的交通灯控制方法,其特征在于,包括如下:
(1)读取城市交通路网信息,建立各个路口的车辆交通状态集合,并将读取的城市交通路网信息转换为邻接矩阵进行存储;
(2)从(1)建立的各个路口车辆交通状态集合中,获取各个路口信息,即各时刻的状态集、动作集和动作奖励值;
(3)根据(2)获取的信息和(1)中的邻接矩阵,利用启发式深度Q网络方法实现对城市路网交通灯进行控制:
3a)初始化第i个路口的评估网络参数θi=1和目标网络参数初始化学习率α=0.05,折扣因子γ=0.99,ε贪心策略中的ε初始为1迭代递减至0.01,采样间隔batch=32,目标网络更新步长C=50,仿真时间t的初始值为0,初始化第i个路口的奖励rti=0,迭代次数上限T=50000;
3b)设置启发式函数
3c)在时刻t,将第i个路口的状态输入到评估网络中,对任意一个动作a,计算评估网络的输出值和启发函数的函数值;
3d)选择并执行信号灯动作获得奖励rti,再进入下一状态令t=t+1;
3e)用状态动作评估网络的输出值奖励rti和下一状态组成一个参考向量并将其存储在第i个路口的参考向量集Mi中,当该参考向量个数大于2000时,开始训练评估网络,执行3f),否则,执行3c);当该参考向量个数大于5000,则移除最早生成的参考向量;
3f)从参考向量集Mi中采样得到参考向量的样本集,输入到评估网络中得到输出值根据评估网络的输出值和第j个邻接路口t-1时刻的评估网络的输出值更新第i个路口的评估网络的输出值
3g)计算评估网络的损失函数,根据梯度下降方法更新评估网络参数θi,每隔50步,目标网络参数
3h)将当前迭代次数t与迭代次数上限T进行比较,判断迭代是否停止:
若t>T,完成对城市路网交通灯的控制;否则,返回3c)。


2.根据权利要求1所述的方法,其特征在于:(1)中读取城市交通路网信息,建立各个路口的车辆交通状态集合Ti,实现如下:
1a)根据交通路网信息构建路口交通信号控制器的集合I:
I={agent0,···agenti,···agentn},
其中agenti表示第i个路口的交通信号控制器,i∈[0,n],n为路网中的路口数;
1b)根据中国的道路交通规则建立路口信号控制器agenti的动作集Ai:
Ai={a1,a2,a3,a4},
其中a1表示南北方向的直行或右拐,a2表示东西方向的直行或右拐,a3表示南北方向的左拐,a4表示东西方向的左拐,路口信号控制器agenti在同一时刻只能选择一组信号灯相位方向;
1c)根据城市交通路网信息构建第i个路口的驶入车道集合Li,驶入车道集合Li中的一条驶入车道为li,li∈Li;
1d)根据中国的道路交通规则构建第i个路口的信号灯集合TLi,驶入车道li上的信号灯为tli,tli∈TLi,该信号灯仅考虑红灯和绿灯;
1e)根据路网中车辆信息构建第i个路口的车辆状态集其包含车辆所处车道的信号灯tli、所处位置p以及目的地d信息,并用三元组[tli,p,d]表示;
1f)根据交通...

【专利技术属性】
技术研发人员:方敏徐维刘超葛领驰陈博
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1