当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于多智能体强化学习的交通灯信号控制方法技术

技术编号:36076171 阅读:12 留言:0更新日期:2022-12-24 10:47
本发明专利技术涉及一种基于多智能体强化学习的交通灯信号控制方法,包括:获取真实交通数据,构建并初始化交通环境;针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层;训练多智能体强化学习模型;每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。与现有技术相比,本发明专利技术考虑了邻居路口的协作关系,能够适应复杂的道路环境,并且能针对每个路口给出适合该交叉路口的最优交通灯信号控制方案。口的最优交通灯信号控制方案。口的最优交通灯信号控制方案。

【技术实现步骤摘要】
一种基于多智能体强化学习的交通灯信号控制方法


[0001]本专利技术涉及交通信号灯智能控制领域,尤其是涉及一种基于多智能体强化学习的交通灯信号控制方法。

技术介绍

[0002]近年来,大多数城市都遭遇了城市交通拥堵。可怕的交通拥堵将导致空气污染和经济损失问题。为了缓解交通拥堵,交通领域的研究人员提出了各种交通信号控制方法来协调各路口的车辆运动。如固定时间改变交通信号、按照最大压力改变信号等。这些交通方法都是基于领域知识所构建出来得。然而,交通状况是高度动态的,使得这些交通领域的方法不能给出最佳解决方案来更有效地协调各路口得车辆,缓解交通拥堵问题。
[0003]现在,许多研究开始利用强化学习来设计交通信号控制方法。与交通领域的方法相比,基于强化学习的方法可以减少更多的车辆驾驶时间。如图1(a)所示,强化学习的基本框架是智能体和环境之间的迭代,它更加灵活。智能体根据自己的实时观察给出推荐行动,环境接受该行动并返回相应的奖励给予智能体。面对整个城市下大规模路网的交通信号控制问题,现有的主流研究是利用多智能体强化学习框架来给出控制策略。
[0004]现在基于强化学习的主流方法是适应分布式框架Ape

XDQN,它将强化学习过程分为两个独立的部分:行动和学习。行动在每个交叉点设置一个统一的智能体,以获取样本并将其存储在经验池中。学习用经验池训练统一的智能体。为了实现跨路口的协作,研究人员允许智能体不仅观察其邻居的交通状况,而且观察其过去的行为,而不是仅仅使用本地交通状况。虽然目前的主流方法已经有效地缓解了交通拥堵,减少了车辆行驶时间,但用共享参数训练统一的代理,导致现有的方法在学习交叉路口的协作模式方面存在不足。如图1(b)所示,路网中存在两个不同协作模式的交叉路口。交叉路口B与四条道路相连,其中B

W和B

N为双向道路,B

S和B

E为单向道路,这表明B

S、B

E对交叉路口B的影响与B

W和B

N不同。交叉路口A与三条双向街道和一条单向街道相连,这与交叉路口B完全不同。显然,当他们观察到的状态相同时,交叉路口A的智能体应该给出与交叉路口B的智能体不同的政策。简单来说,当路口数量增加时,用图注意网络和Ape

XDQN框架很难学习大规模道路网络中存在的所有交通模式,从而给出适合不同交叉路口的最优动作。

技术实现思路

[0005]本专利技术的目的就是为了提供一种基于多智能体强化学习的交通灯信号控制方法,能够学习大规模道路网络中存在的所有交通模式,从而给出适合不同交叉路口的最优动作。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]一种基于多智能体强化学习的交通灯信号控制方法,包括以下步骤:
[0008]获取真实交通数据,构建并初始化交通环境,所述交通数据包括路网信息、交通流数据和环境信息;
[0009]针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层,其中,所述观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量,所述自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量,得到目标交叉路口包含其邻居信息的潜在表征,所述Q值预测层根据输入的目标交叉路口的潜在表征,输出不同行动的预期奖励,并选择具有最高预期奖励的最佳行动,作为最优的交通灯信号控制方案;
[0010]基于真实交通数据训练多智能体强化学习模型;
[0011]每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。
[0012]所述观测嵌入层基于多层感知器将k维的观测值嵌入到m维的潜伏层:
[0013][0014]其中,是第i个交叉路口在时间t的观测值,和分别是权重矩阵和偏置向量,σ是ReLU函数,观测嵌入层的输出代表第i个交叉路口的当前潜在交通状态观测向量,观测值包括当前的交通信号与交叉路口相连的每条接近车道的车辆数量以及交叉路口的压力
[0015]所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。
[0016]所述观测交互模块学习邻居路口对目标交叉路口的重要性:
[0017]e
ij
=(h
i
W
t
)
·
h
j
W
s
)
T
[0018]其中,e
ij
为邻居路口j对目标交叉路口i的重要性,W
t
,分别是目标交叉路口和邻居路口的潜在状态观测向量,h
i
,h
j
分别为目标交叉路口i和邻居路口j的观测值输入到观测嵌入层后的输出。
[0019]所述邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性:
[0020][0021]其中,是目标交叉路口i的邻居路口,τ为温度系数,用于调整softmax曲线的平滑程度。
[0022]所述邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合:
[0023][0024]其中,是邻域交叉嵌入的权重参数,W
q
和b
q
是权重矩阵和偏执向量,邻域表示积累了邻域的信息,代表与相邻交叉路口的协作模式,σ为ReLU函数。
[0025]所述多头注意力机制的多头函数被并行训练,以生成多个交叉路口的邻域表示
hs
i
,并将其平均为hm
i

[0026][0027]其中,H为注意头的数量。
[0028]所述多头注意机制模块中的每个交叉路口上设有一个临界节点嵌入模块,以确定每个头的权重,并基于权重调整交叉路口邻域表示的平均值:
[0029]w
i
=σ(W
ai
h
i
+b
ai
)
[0030][0031]hm
i

=σ(W
q
·
w
i
·
H
i
)+b
q
)
[0032]其中,是观测嵌入层的输出,是交叉路口i的多头的权重,hm
i

是基于权重w
i
调整的交叉路口邻域表示的加权和。
[0033]所述Q值预测层基于深度Q网络,根据贝尔曼方程预测每个备选行动的预期奖励,其中,所述贝尔曼方程为:
[0034]Q(s
t
,a
t
)=R(s
t
,a
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,包括以下步骤:获取真实交通数据,构建并初始化交通环境,所述交通数据包括路网信息、交通流数据和环境信息;针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层,其中,所述观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量,所述自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量,得到目标交叉路口包含其邻居信息的潜在表征,所述Q值预测层根据输入的目标交叉路口的潜在表征,输出不同行动的预期奖励,并选择具有最高预期奖励的最佳行动,作为最优的交通灯信号控制方案;基于真实交通数据训练多智能体强化学习模型;每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。2.根据权利要求1所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述观测嵌入层基于多层感知器将k维的观测值嵌入到m维的潜伏层:其中,是第i个交叉路口在时间t的观测值,和分别是权重矩阵和偏置向量,σ是ReLU函数,观测嵌入层的输出代表第i个交叉路口的当前潜在交通状态观测向量,观测值包括当前的交通信号与交叉路口相连的每条接近车道的车辆数量以及交叉路口的压力3.根据权利要求1所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。4.根据权利要求3所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述观测交互模块学习邻居路口对目标交叉路口的重要性:e
ij
=(h
i
W
t
)
·
(h
j
W
s
)
T
其中,e
ij
为邻居路口j对目标交叉路口i的重要性,分别是目标交叉路口和邻居路口的潜在状态观测向量,h
i
,h
j
分别为目标交叉路口i和邻居路口j的观测值输入到观测嵌入层后的输出。5.根据权利要求4所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性:其中,是目标交叉路口i的邻居路口,τ为温度系数,用于调整softmax曲线的平滑程度。6.根据权利要求5所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合:
其中,是邻域...

【专利技术属性】
技术研发人员:赵生捷邓浩陈志
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1