一种结合状态预测的深度强化学习交通信号控制方法技术

技术编号:32010123 阅读:7 留言:0更新日期:2022-01-22 18:27
本发明专利技术公开了一种结合状态预测的深度强化学习交通信号控制方法,包括如下步骤:(1)路网环境、车流数据建模;(2)深度强化学习算法选择与三要素设计;(3)预测未来的交通状态;(4)训练模型;(5)实验测试。本发明专利技术能够缩短车辆的等待时间,提高路网的通行效率。提高路网的通行效率。提高路网的通行效率。

【技术实现步骤摘要】
一种结合状态预测的深度强化学习交通信号控制方法


[0001]本专利技术涉及智能交通信号控制
,尤其是一种结合状态预测的深度强化学习交通信号控制方法。

技术介绍

[0002]随着生活水平的提高,汽车保有量持续增长,城市的交通拥堵问题也日趋严重。交通信号控制是提高道路通行效率、缓解交通拥堵最直接、成本最低的途径,传统的信控方法主要包括固定配时控制、感应控制和自适应控制等。SCATS(Sydney Coordinated Adaptive Traffic System)和SCOOT(Split Cycle Offset Optimizing Technique)是目前广泛使用的自适应交通信控系统,它们利用简化的交通模型求解最优的信号控制策略;但是简化模型的建立依赖大量的假设和经验方程,在复杂多变的真实交通场景下,这类系统难以达到最佳效果。近年来,随着人工智能技术的发展,深度强化学习(Deep Reinforcement Learning,DRL)在交通信号控制方面展现出卓越的应用前景。
[0003]DRL结合了DL的强感知能力与RL的强决策能力,是一种“试错”的学习方法,通过与环境交互来学习最优策略。应用在交通信号控制中,可以把一个或几个交叉口看成一个Agent,Agent观测路网状态后做出决策,通过最大化环境反馈的奖励以学习最优的信号配时方案。Zheng等(ZHENG G,XIONG Y,ZANG X,et al.Learning phase competition for traffic signal control[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management.2019:1963

1972.)提出FRAP模型,利用不同信号相位间的竞争关系,实现了在交通流中翻转和旋转等对称情况下的普适性。Tan等(TAN T,BAO F,DENG Y,et al.Cooperative deep reinforcement learning for large

scale traffic grid signal control[J].IEEE transactions on cybernetics,2019,50(6):2687

2700.)将大规模路网分为若干个子区域,对每个区域,使用Peraction DQN或Wolpertinger DDPG进行控制,将所有Agent的学习策略传递给全局Agent实现全局学习。这些DRL信控方法本质上依赖于一阶马尔可夫决策过程,仅使用当前的交通状态进行决策。但是,对于实际场景中复杂多变的交通流,只有综合当前、历史和未来状态才可能获得最优控制策略。
[0004]现实交通流数据具有突变性、实时性、周期性等特征,是典型的时序数据,目前基于DRL的信号控制方法都只是利用当前的交通状态做决策,控制效果有限。

技术实现思路

[0005]本专利技术所要解决的技术问题在于,提供一种结合状态预测的深度强化学习交通信号控制方法,能够缩短车辆的等待时间,提高路网的通行效率。
[0006]为解决上述技术问题,本专利技术提供一种结合状态预测的深度强化学习交通信号控制方法,包括如下步骤:
[0007](1)路网环境、车流数据建模;用SUMO对路网进行建模,包括单路口以及多路口,根
据现实交通场景的情形模拟车辆的生成;
[0008](2)深度强化学习算法选择与三要素设计;选择DRL智能体控制交通信号,采用DTSE的方式精心设计状态,包含路网中多种交通信息,并根据实际情况设计动作与奖励;
[0009](3)预测未来的交通状态;使用动态分配、卡尔曼滤波或神经网络方法对步骤(2)中设计的状态进行预测,预测状态将与当前状态一起输入DRL智能体进行最优决策;
[0010](4)训练模型;选择合适的优化器以及设置超参数,利用SUMO生成的车流数据对步骤(2)中的DRL智能体以及步骤(3)中的预测模型进行训练,训练完后保存最后的模型;
[0011](5)实验测试;用同一分布生成的车流数据对专利技术的控制方法进行测试评估,定义评价指标,并与其他控制方法进行比较。
[0012]优选的,步骤(1)中,用SUMO仿真软件对路口进行建模,每个路口都是双向六车道,车流数据包括仿真时长、车辆生成方式、车辆数目以及行驶轨迹,车辆的生成服从韦伯分布,设置三种车辆密度,分别对应低、中、高三种流量条件,每辆车以一定的概率直行或是转弯。
[0013]优选的,步骤(2)中,DRL模型采用D3QN,使用经验回放来更新目标Q值,使用双网络减轻过度估计,缓解模型的过拟合问题,将Q网络分为价值函数与优势函数两部分,对网络结构进行优化;DRL智能体状态设计如下:首先按一定距离比例将车道分为若干元胞,计算每个元胞中车辆的数目、平均速度和平均加速度,作为数目向量、速度向量和加速度向量,这三个向量构成环境的状态向量;动作定义为选择一个可能的绿灯相位,包含4种选择,为南北方向直行和右转绿灯、南北方向左转绿灯、东西方向直行和右转绿灯、东西方向左转绿灯,每个绿灯相位设置最小持续时间与最大持续时间,绿灯和红灯切换期间会执行一定时长的黄灯;奖励定义为动作执行期间队列长度、等待时间、车辆延误、通过路口的车辆数目以及通过路口车辆的通行时间的加权和。
[0014]优选的,步骤(3)中,使用长短期记忆网络预测未来的微观状态,即对步骤(2)中定义的每个元胞中车辆的数目、平均速度和平均加速度进行预测,预测步数由神经网络学习得到。
[0015]优选的,步骤(4)中,DRL相关超参数包括训练回合数、经验池最小尺寸、最大尺寸、折扣因子;深度Q网络为全连接神经网络,均方误差作为损失函数,选用Adam优化器,相关超参数包括深度、宽度、学习率、批处理大小、训练迭代次数;LSTM预测网络采用二值交叉熵作为损失函数,选用Adam优化器,相关超参数包括单元数、层数、神经元个数、批处理大小、训练迭代次数。
[0016]优选的,步骤(5)中,评价指标包括平均等待时间、平均队列长度、平均行驶时间、平均CO排放、平均CO2排放,对比算法选用韦伯斯特固定配时控制、车辆驱动控制、不加预测的D3QN控制,可以说明专利技术的信控方法在提高路网通行效率,降低污染排放方面的有效性与可行性。
[0017]本专利技术的有益效果为:(1)引入显示的交通状态预测,采用LSTM网络预测未来的微观状态,D3QN智能体使用当前和预测状态进行最优决策,可以充分利用交通数据的时序相关性,提高路网的通行效率;(2)精心设计智能体的状态,采用DTSE的方法将车道划分为元胞,计算元胞中的车辆数目、平均速度和平均加速度,在减少数据量的同时保留了重要的交通信息,易于预测;(3)使用MARL实现路网的交通信号控制,采用状态信息交互和空间折扣
因子来实现多智能体协作,车流数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合状态预测的深度强化学习交通信号控制方法,其特征在于,包括如下步骤:(1)路网环境、车流数据建模;用SUMO对路网进行建模,包括单路口以及多路口,根据现实交通场景的情形模拟车辆的生成;(2)深度强化学习算法选择与三要素设计;选择DRL智能体控制交通信号,采用DTSE的方式精心设计状态,包含路网中多种交通信息,并根据实际情况设计动作与奖励;(3)预测未来的交通状态;使用动态分配、卡尔曼滤波或神经网络方法对步骤(2)中设计的状态进行预测,预测状态将与当前状态一起输入DRL智能体进行最优决策;(4)训练模型;选择合适的优化器以及设置超参数,利用SUMO生成的车流数据对步骤(2)中的DRL智能体以及步骤(3)中的预测模型进行训练,训练完后保存最后的模型;(5)实验测试;用同一分布生成的车流数据对发明的控制方法进行测试评估,定义评价指标,并与其他控制方法进行比较。2.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法,其特征在于,步骤(1)中,用SUMO仿真软件对路口进行建模,每个路口都是双向六车道,车流数据包括仿真时长、车辆生成方式、车辆数目以及行驶轨迹,车辆的生成服从韦伯分布,设置三种车辆密度,分别对应低、中、高三种流量条件,每辆车以一定的概率直行或是转弯。3.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法,其特征在于,步骤(2)中,DRL模型采用D3QN,使用经验回放来更新目标Q值,将Q网络分为价值函数与优势函数两部分,对网络结构进行优化;智能体状态设计如下:按一定距离比例将车道分为若干元胞,计算...

【专利技术属性】
技术研发人员:周大可唐慕尧杨欣
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1