一种交通信号控制模型的建立方法及控制方法技术

技术编号:37497944 阅读:15 留言:0更新日期:2023-05-07 09:34
本发明专利技术公开了一种交通信号控制模型的建立方法及控制方法,该建立方法包括步骤S101~S102;S101,设计交通信号控制器网络结构;S102,训练交通信号控制器;其中,步骤S101包括:S1011,对交通状态进行编码;S1012,将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征;S1013,生成交通信号控制器领域的整体环境特征;S1014,交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域的影响,从而得到交通信号控制器网络结构。本发明专利技术能够解决现有技术不能有效实现邻居Agent交互协作的问题。居Agent交互协作的问题。居Agent交互协作的问题。

【技术实现步骤摘要】
一种交通信号控制模型的建立方法及控制方法


[0001]本专利技术涉及交通数据处理
,特别是涉及一种交通信号控制模型的建立方法及控制方法。

技术介绍

[0002]近年来,交通拥堵浪费通行时间,加剧尾气排放,造成严重的经济损失。对交通信号进行控制能一定程度上缓解交通拥堵。目前,随着强化学习的快速发展,研究人员发现强化学习是解决交通信号控制问题最合适的框架,开始研究强化学习技术实现交通信号的协作。特别的,在大规模的道路网络中,交叉口之间的合作对于缓解交通拥堵至关重要。但大多数现存的多智能体强化学习(MARL)的交通信号控制方法不能有效实现邻居交通信号控制器(Agent)交互协作。
[0003]当前交通信号控制方法主要包括传统的预定时、自适应交通信号控制方法、基于强化学习的单智能体强化学习、多智能体强化学习的交通信号控制方法。预定时的交通信号控制方法主要是通过合理规划道路网络的交通流量来减少排队车辆长度,缓解交通拥堵。自适应交通信号控制(Adaptive Traffic Signal Control,ATSC)致力于让交通信号配时方案适应于实时、动态多变、复杂不确定的道路状况,以在饱和道路上减少潜在的拥堵来缓解交通压力。基于强化学习的交通信号控制方法不依赖于任何不切实际的模型假设,通过与周围复杂交通环境直接交互获得经验,根据经验调整动作策略,从而进行学习。
[0004]然而,现有技术中,预定时、自适应交通信号控制等传统信号控制方法无法实时解决交通环境的动态性问题。单智能体强化学习的交通信号控制方法不适合部署在大型城市交通路网中;多智能体强化学习的交通信号控制方法中,每个控制信号灯的Agent感知该交叉口交通状态信息时会受到领域Agent决策的影响,造成非平稳问题。大多数现存的多智能体强化学习的交通信号控制方法不能有效实现邻居Agent交互协作。Agent之间的全交互会使得用于协作的信息价值密度降低,而仅与邻居Agent交互通信会限制协作范围。

技术实现思路

[0005]为此,本专利技术的实施例提出一种交通信号控制模型的建立方法及控制方法,以解决现有技术不能有效实现邻居Agent交互协作的问题。
[0006]根据本专利技术一实施例的交通信号控制模型的建立方法,包括步骤S101~S102:S101,设计交通信号控制器网络结构;其中,步骤S101包括步骤S1011~S1014:S1011,对交通状态进行编码;S1012,将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征;S1013,生成交通信号控制器领域的整体环境特征;S1014,交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域
的影响,从而得到交通信号控制器网络结构;S102,训练交通信号控制器;其中,步骤S102包括步骤S1021~S1023:S1021,在每个时间步长内受控交通路网中所有交通信号控制器采集各个交叉口的交通状态数据和对应的邻接矩阵;S1022,交通信号控制器根据交通状态数据以预设概率为每个交叉口选择一个最优的信号相位动作,交付给每个交叉口的信号灯去实施,并返回相应的奖励值给交通信号控制器;S1023,交通信号控制器在与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性,完成交通信号控制器的训练,以得到交通信号控制模型。
[0007]上述建立方法,其中,步骤S1011具体包括:S1011a,将原始的本地观测向量嵌入多层感知机得到中间值;S1011b,将和时刻采取的动作共同作为门循环单元的输入,得到隐含特征向量;其中,中间值的表达式为:,表示第i个交通信号控制器在时刻的本地观测向量,表示权重矩阵,表示偏置向量,函数表示具有Relu非线性激活函数的单层感知机;隐含特征向量的表达式为:,表示第i个交通信号控制器在t

1时刻采取的动作,GRU表示门循环单元。
[0008]上述建立方法,其中,步骤S1012具体包括:S10121a,将每个交通信号控制器输入的交通环境特征投影为每个独立的注意力头;S10121b,在每一个注意力头m中,将所有输入特征的值表示都关系加权后相加;S10121c,将第i个交通信号控制器的M个注意力头的输出进行串联,再输入函数,产生卷积层的输出;其中,的表达式为:,其中,表示权重矩阵,表示交叉口i的所有邻居交叉口,表示和i的集合,表示对于任一注意力头m,交叉口j对交叉口i的重要性程度,表示注意力头m的值V的权重矩阵,表示第j个交通信号控制器在t时刻的隐含特征向量,表示sigmoid的参数;
的表达式为:,表示缩放系数,表示注意力头m的查询Q的权重矩阵,表示注意力头m的键K的权重矩阵,T表示转置符号,k表示普通参数,表示第k个交通信号控制器在t时刻的隐含特征向量。
[0009]上述建立方法,其中,步骤S1012还包括:S10122a,第二层卷积层提取合并交叉口i附近区域的交通环境特征,生成隐含的特征向量,交叉口i附近区域包括交叉口i的所有邻居交叉口;S10122b,堆叠多个卷积层的交通环境特征,生成隐含的特征向量。
[0010]上述建立方法,其中,步骤S1013具体包括:S1013a,构建交叉口i的邻居协作矩阵;S1013b,将所有交通信号控制器的隐含特征向量拼接成一个大小为的特征矩阵;S1013c,得到交叉口i的邻居协作区域的特征矩阵。
[0011]上述建立方法,其中,步骤S1022具体包括:S1022a,将每个交通信号控制器的价值函数Q联合起来,统一输入到混合网络中,获得联合价值函数;S1022b,每个交通信号控制器隐性地获得自己的价值函数,根据价值函数进行动作选择;其中,联合价值函数的表达式为:,其中,表示第i个交通信号控制器的价值函数。
[0012]上述建立方法,其中,步骤S1023具体包括:S1023a,在训练阶段的每一时间戳内,将训练数据的元组存储在经验回放池D中;S1023b,从经验回放池D中随机抽取大小为B的批次数据,通过图卷积网络进行端对端的训练以最小化损失函数L;所述训练数据的元组,其中,表示所有交通信号控制器的本地观测集,表示所有交通信号控制器的动作集,表示下一时刻所有交通信号控制器的本地观测集,表示所有交通信号控制器的奖励集;
所述损失函数L的表达式为:,;其中,B表示抽取的批次数据的大小,表示第个交通信号控制器的感知域组成的观测集合,表示第个交通信号控制器的动作,表示评估网络的参数,表示联合报酬,表示折扣因子,表示联合价值函数最大时交通信号控制器的动作集合,表示时刻第个交通信号控制器的感知域组成的观测集合,表示时刻第个交通信号控制器的动作,表示目标网络的参数。
[0013]本专利技术的实施例还提供了交通信号控制模型的控制方法,所述交通信号控制模型由上的建立方法建立得到,所述控制方法包括步骤S201~S202:S201,第个交通信号控制器更新自己的Q网络;S202,第个交通信号控制器在t时刻采取的动作。
[0014]上述控制方法,其中,步骤S201具体包括:S2011,第个交通信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交通信号控制模型的建立方法,其特征在于,包括步骤S101~S102:S101,设计交通信号控制器网络结构;其中,步骤S101包括步骤S1011~S1014:S1011,对交通状态进行编码;S1012,将编码后的交通状态根据交叉口邻接矩阵传入图卷积网络中提取隐含特征;S1013,生成交通信号控制器领域的整体环境特征;S1014,交通信号控制器在所述交通信号控制器领域的整体环境特征上模拟领域的影响,从而得到交通信号控制器网络结构;S102,训练交通信号控制器;其中,步骤S102包括步骤S1021~S1023:S1021,在每个时间步长内受控交通路网中所有交通信号控制器采集各个交叉口的交通状态数据和对应的邻接矩阵;S1022,交通信号控制器根据交通状态数据以预设概率为每个交叉口选择一个最优的信号相位动作,交付给每个交叉口的信号灯去实施,并返回相应的奖励值给交通信号控制器;S1023,交通信号控制器在与环境的交互中进行学习以获得最优的实时信号配时策略响应交通流的动态特性,完成交通信号控制器的训练,以得到交通信号控制模型。2.根据权利要求1所述的一种交通信号控制模型的建立方法,其特征在于,步骤S1011具体包括:S1011a,将原始的本地观测向量嵌入多层感知机得到中间值;S1011b,将和时刻采取的动作共同作为门循环单元的输入,得到隐含特征向量;其中,中间值的表达式为:,表示第个交通信号控制器在时刻的本地观测向量,表示权重矩阵,表示偏置向量,函数表示具有Relu非线性激活函数的单层感知机;隐含特征向量的表达式为:,表示第个交通信号控制器在t

1时刻采取的动作,GRU表示门循环单元。3.根据权利要求2所述的一种交通信号控制模型的建立方法,其特征在于,步骤S1012具体包括:S10121a,将每个交通信号控制器输入的交通环境特征投影为每个独立的注意力头;S10121b,在每一个注意力头m中,将所有输入特征的值表示都关系加权后相加;S10121c,将第i个交通信号控制器的M个注意力头的输出进行串联,再输入函数,产生卷积层的输出;
其中,的表达式为:,其中,表示权重矩阵,表示交叉口i的所有邻居交叉口,表示和i的集合,表示对于任一注意力头m,交叉口j对交叉口i的重要性程度,表示注意力头m的值V的权重矩阵,表示第j个交通信号控制器在t时刻的隐含特征向量,表示sigmoid的参数;的表达式为:,表示缩放系数,表示注意力头m的查询Q的权重矩阵,表示注意力头m的键K的权重矩阵,T表示转置符号,k表示普通参数,表示第k个交通信号控制器在t时刻的隐含特征向量。4.根据权利要求3所述的一种交通信号控制模型的建立方法,其特征在于,步骤S1012还包括:S10122a,第二层卷积层提取合并交叉口i附近区域的交通环境特征,生成隐含的特征向...

【专利技术属性】
技术研发人员:严丽平王静朱炉龙宋凯蔡彧张文剥
申请(专利权)人:华东交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1