【技术实现步骤摘要】
一种基于多智能体强化学习的交通灯信号控制方法
[0001]本专利技术涉及交通信号灯智能控制领域,尤其是涉及一种基于多智能体强化学习的交通灯信号控制方法。
技术介绍
[0002]近年来,大多数城市都遭遇了城市交通拥堵。可怕的交通拥堵将导致空气污染和经济损失问题。为了缓解交通拥堵,交通领域的研究人员提出了各种交通信号控制方法来协调各路口的车辆运动。如固定时间改变交通信号、按照最大压力改变信号等。这些交通方法都是基于领域知识所构建出来得。然而,交通状况是高度动态的,使得这些交通领域的方法不能给出最佳解决方案来更有效地协调各路口得车辆,缓解交通拥堵问题。
[0003]现在,许多研究开始利用强化学习来设计交通信号控制方法。与交通领域的方法相比,基于强化学习的方法可以减少更多的车辆驾驶时间。如图1(a)所示,强化学习的基本框架是智能体和环境之间的迭代,它更加灵活。智能体根据自己的实时观察给出推荐行动,环境接受该行动并返回相应的奖励给予智能体。面对整个城市下大规模路网的交通信号控制问题,现有的主流研究是利用多智能体强化学习框架来给出控制策略。
[0004]现在基于强化学习的主流方法是适应分布式框架Ape
‑
XDQN,它将强化学习过程分为两个独立的部分:行动和学习。行动在每个交叉点设置一个统一的智能体,以获取样本并将其存储在经验池中。学习用经验池训练统一的智能体。为了实现跨路口的协作,研究人员允许智能体不仅观察其邻居的交通状况,而且观察其过去的行为,而不是仅仅使用本地交通状况。虽然目前的主流方法已经 ...
【技术保护点】
【技术特征摘要】
1.一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,包括以下步骤:获取真实交通数据,构建并初始化交通环境,所述交通数据包括路网信息、交通流数据和环境信息;针对每个交叉路口的交通灯构建多智能体强化学习模型,所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层,其中,所述观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量,所述自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量,得到目标交叉路口包含其邻居信息的潜在表征,所述Q值预测层根据输入的目标交叉路口的潜在表征,输出不同行动的预期奖励,并选择具有最高预期奖励的最佳行动,作为最优的交通灯信号控制方案;基于真实交通数据训练多智能体强化学习模型;每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值,利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案,并控制交通信号灯的行动。2.根据权利要求1所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述观测嵌入层基于多层感知器将k维的观测值嵌入到m维的潜伏层:其中,是第i个交叉路口在时间t的观测值,和分别是权重矩阵和偏置向量,σ是ReLU函数,观测嵌入层的输出代表第i个交叉路口的当前潜在交通状态观测向量,观测值包括当前的交通信号与交叉路口相连的每条接近车道的车辆数量以及交叉路口的压力3.根据权利要求1所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。4.根据权利要求3所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述观测交互模块学习邻居路口对目标交叉路口的重要性:e
ij
=(h
i
W
t
)
·
(h
j
W
s
)
T
其中,e
ij
为邻居路口j对目标交叉路口i的重要性,分别是目标交叉路口和邻居路口的潜在状态观测向量,h
i
,h
j
分别为目标交叉路口i和邻居路口j的观测值输入到观测嵌入层后的输出。5.根据权利要求4所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性:其中,是目标交叉路口i的邻居路口,τ为温度系数,用于调整softmax曲线的平滑程度。6.根据权利要求5所述的一种基于多智能体强化学习的交通灯信号控制方法,其特征在于,所述邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合:
其中,是邻域...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。