一种基于生成对抗网络和强化学习的分布式交通信号控制方法技术

技术编号:30147635 阅读:17 留言:0更新日期:2021-09-25 14:53
本发明专利技术公开了一种利用改进的生成对抗网络(WGAN

【技术实现步骤摘要】
一种基于生成对抗网络和强化学习的分布式交通信号控制方法


[0001]本专利技术涉及交通管理与控制领域,具体涉及到一种基于生成对抗网络和强化学习的分布式交通信号控制方法。

技术介绍

[0002]普遍认为,适应性交通信号控制方法是能够应对日益增长的交通需求,缓解道路交通拥堵的有效方法之一。与早期的适应性信号控制方法,例如SCOOT、SCATS以及OPAC 等相比,基于强化学习的交通信号控制方法能够通过与交通系统的交互学习信号控制方案,而不需要复杂的计算公式。
[0003]现已有研究尝试将演员评论家算法(A2C)应用于分布式交通信号控制。但仍旧存在几点问题:(1)在分布式信号控制中,智能体之间的交流不够,容易导致交叉口之间各自为营,区域联合控制效果不佳;(2)A2C作为在线策略的强化学习算法,需要通过与环境实时交互积累数据,然后用于模型训练,故存在数据利用效率低,模型训练效率低的缺点;(3)当希望已经训练好的A2C模型在实际应用中继续学习时,也因为数据积累效率低,导致不能及时根据交通状态更新模型参数。

技术实现思路

[0004]专利技术目的:针对以上现有技术存在的问题,本专利技术提出一种基于生成对抗网络和强化学习的分布式交通信号控制方法,旨在解决如何在分布式信号控制模式中加强各智能体的数据交流,提高区域信号联合控制效果;以及如何提高A2C的模型学习效率从而应对实时交通状态这两个问题。
[0005]技术方案:为实现上述专利技术目的,本专利技术提出的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,包括以下步骤:
[0006](1)定义区域交通信号多智能体强化学习控制框架,定义强化学习各要素,即状态(s)、动作(a)、奖励(r)。以单个交叉口作为独立智能体,通过收集本交叉口和相邻交叉口的信息,实行分布式训练

分布式控制的模式。
[0007]每个智能体在时刻t的环境状态s
t
定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Q
t
、进口道首车等候时间矩阵W
t
。其中环境状态s
t
如图5所示。
[0008]其中,m为交叉口数量,n为所有交叉口车道数的最大值;Q
t
矩阵中的元素q
i,j
表示交叉口i进口道j的排队长度,对于交叉口进口道数量不一致的情况,用0补全矩阵; W
t
矩阵中的元素w
i,j
表示交叉口i进口道j的首车等候时间,对于交叉口进口道数量不一致的情况,用0补全矩阵。
[0009]智能体动作a
t
是t时刻从动作集合中选取的该交叉口的信号相位。动作集合定义为该交叉口所有不冲突的相位组合的集合。例如,对于一个各流向车流均有独立进口道的典型十字形交叉口,其动作集合定义为{南北直行、南北左转、东西直行、东西左转、南直左、
北直左、东直左、西直左}。每次信号相位执行的时长固定为5s。
[0010]智能体的奖励r
t+1
是对t时刻采取动作的效果的一种短时反馈,也是实现区域信号联动控制的间接参数。本专利技术考虑对交叉口的排队长度和车辆延误进行优化,定义奖励为目标交叉口和相邻交叉口排队和首车等候时间的带权重和。将相邻交叉口的排队信息和车辆等候信息纳入到目标交叉口的奖励中,能够实现区域交通的整体优化。定义交叉口i在t+1时刻的奖励1时刻的奖励其中,I
i
表示交叉口i的进口道集合;queue
l
、wait
l
分别为进口道l的车辆排队长度和首车等候时间;N
i
表示交叉口i的相邻交叉口集合;β是权重系数。
[0011](2)模型训练阶段,A2C强化学习模型通过与多个交通仿真器交互,多线程构建经验数据库用于后续生成对抗模型的参数训练。每个智能体都采用改进后A2C 模型与道路交通仿真环境交互,交互过程如下:智能体获取t时刻的环境状态s
t
;agent 根据其当前策略(P
t
)确定t时刻的信号控制相位a
t
;在动作a
t
的作用下,交通状态更新到s
t+1
,并通过评估s
t+1
,得到s
t
状态下采取a
t
的奖励r
t+1
。将t时刻获得的数据以 <s
t
,a
t
,r
t+1
,s
t+1
>的形式存储到数据库中。智能体与环境逐步交互,构建各自的经验数据库
[0012](3)训练基于策略的生成对抗模型(P

WGAN

GP),用于生成交通数据“伪数据库”。 P

WGAN

GP包括生成模型G和对抗模型D。
[0013]模型G生成伪数据的过程分为两步:首先以随机噪声向量为输入,生成伪状态并根据当前策略P
t
,即根据t时刻的actor模型得到伪动作然后将继续作为输入,产生伪数据并根据得到通过输入不同的噪声向量,生成模型将产生批量的基于策略P
t
的伪数据集。定义生成模型G的目标函数为:
[0014][0015]其中,表示由生成模型G输出的伪数据;I(X;Y)在信息论表示变量X和Y的互信息,用于衡量两个变量之间关系的强弱,δ是惩罚因子,使目标函数两部分在同一量级。
[0016]根据经验数据库中的真实数据库和生成模型产生的伪数据,对抗模型D将通过更新模型参数增强对真实数据和伪数据的评价能力。对抗模型(D)以伪状态对和经验状态对<s
t
,s
t+1
>为输入,输出对于各状态对的评价值。定义对抗模型D的目标函数为:
[0017][0018]其中,x~P
r
表示从经验数据库中取样的数据;为对抗模型的梯度惩罚,使梯度保持在1附近;是通过在经验数据和伪数据的均匀插值得到的数据;λ为梯度因子,根据目标函数各部分量级取值。
[0019]P

WGAN

GP的训练方法如下:
[0020](a)初始化:给定超参数的值,包括惩罚因子δ、梯度因子λ,学习速率α,Adam 优化器中的参数β1和β2;批量样本的大小m;给定n_critic(定义为G每迭代一次,D需要迭代n_critic次);给模型G
θ
和D
w
的参数赋初值。
[0021](b)保持生成模型G的参数不变,模型D的参数迭代n_critic次。
[0022](b.1)从经验数据库中取大小为m的经验样本x、生成大小为m的随机噪声z,以及一
组随机数字∈~U[0,1][0023](b.2)利用生成模型产生伪数据生成经验数据和伪数据的插值数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,该方法包括以下步骤:(1)设计多智能体强化学习(MARL)在区域交通信号控制的控制框架,同时定义强化学习的各要素,即状态、动作、奖励;(2)应用基于强化学习的智能体与环境交互,并积累交互数据,每个时刻t,智能体(agent)与交通仿真环境交互,多线程累积数据,将数据以<s
t
,a
t
,r
t+1
,s
t+1
>的形式存储到经验数据库中,其中,s
t
、s
t+1
分别为t、t+1时刻的环境状态,a
t
为t时刻智能体输出的信号控制方案,r
t+1
是t+1时刻智能体从交通环境得到的奖励,所述交通仿真环境为SUMO或VISSIM仿真平台;(3)在生成对抗模型GAN的基础上,构建基于策略的生成对抗模型P

WGAN

GP,用于生成交通数据的伪数据库,模型训练中,生成模型(G)以策略P
t
产生的动作和随机噪声向量为输入,生成t时刻和t+1时刻的伪造状态t+1时刻的伪造奖励根据计算得到,从而形成一条伪造数据通过输入不同的噪声向量,生成模型将产生批量的基于策略P
t
的伪数据集,将经验数据库中的真实数据和生成模型产生的伪数据输入到对抗模型D中,对抗模型通过更新模型参数增强对真实数据和伪数据的评估能力,而根据模型D对伪数据的评价,生成模型G也进一步更新模型参数以提高生成数据的真实度,当模型G的参数收敛后,重新输入批量噪声向量,生成伪数据存储在伪数据库(4)以伪数据库作为经验数据库中数据的补充,用于强化学习模型的训练,对强化学习模型的参数进行更新,多智能体信号控制系统采用分布式训练

分布式控制方式,即每个智能体在信息交互的前提下训练独立的信号控制模型和生成对抗模型,然后进行分布式控制。2.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(1)中控制框架为:每个交叉口作为独立智能体收集数据并进行模型训练;各智能体之间进行状态信息的交互,优化交叉口的信号控制策略,从而间接实现区域交通的联合控制;智能体之间的信息交互体现在对环境状态的定义上,每个智能体在时刻t的环境状态s
t
定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Q
t
、进口道首车等候时间矩阵W
t
,其中,Q
t
矩阵中的元素q
i,j
表示交叉口i进口道j的排队长度,对于交叉口进口道数量不一致的情况,用0补全矩阵;W
t
矩阵中的元素w
i,j
表示交叉口i进口道j的首车等候时间,对于交叉口进口道数量不一致的情况,用0补全矩阵;智能体动作a
t
是t时刻从动作集合中选取的该交叉口的信号相位,动作集合定义为该交叉口所有不冲突的相位组合的集合,每次信号相位执行的时长固定为5s;智能体的奖励r
t+1
是对t时刻采取动作的效果的一种延迟反馈,定义为目标交叉口和相邻交叉口排队和首车等候时间的带权重和,交叉口i在t+1时刻的奖励邻交叉口排队和首车等候时间的带权重和,交叉口i在t+1时刻的奖励其中,I
i
表示交叉口i的进口道集合,I
j
表示交叉口j的进口道集合;queue
l
、wait
l
分别为进口道l的车辆排队长度和首车等候时间;N
i
表示交叉口i的相邻交叉口集合;α、β为权重系数。
3.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(2)中单个智能体采用了基于优势演员

评论家算法(A2C)的强化学习模型,模型在训练阶段,通过与多个交通仿真器交互,多线程构建经验数据库用于后续生成对抗模型的参数训练,单个智能体与交通仿真环境交互的过程如下:根据步骤(1)中的状态定义,智能体获取t时刻的环境状态s
t
,将t时刻的演员模型Actor记为策略P
t
,智能体将s
t
输入演员模型,得到t时刻的信号控制相位a
t
;在动作a
t
的作用下,交通状态更新到s
t+1
,并通过评估s
t+1
得到s
t
状态下采取a
t
的奖励r
t+1
,从而得到一条经验数据<s
t
,a
t
,r
t+1
,s
t+1<...

【专利技术属性】
技术研发人员:王昊卢云雪董长印杨朝友
申请(专利权)人:扬州市法马智能设备有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1