一种结合状态预测的深度强化学习交通信号控制方法技术

技术编号:32010123 阅读:22 留言:0更新日期:2022-01-22 18:27
本发明专利技术公开了一种结合状态预测的深度强化学习交通信号控制方法,包括如下步骤:(1)路网环境、车流数据建模;(2)深度强化学习算法选择与三要素设计;(3)预测未来的交通状态;(4)训练模型;(5)实验测试。本发明专利技术能够缩短车辆的等待时间,提高路网的通行效率。提高路网的通行效率。提高路网的通行效率。

【技术实现步骤摘要】
一种结合状态预测的深度强化学习交通信号控制方法


[0001]本专利技术涉及智能交通信号控制
,尤其是一种结合状态预测的深度强化学习交通信号控制方法。

技术介绍

[0002]随着生活水平的提高,汽车保有量持续增长,城市的交通拥堵问题也日趋严重。交通信号控制是提高道路通行效率、缓解交通拥堵最直接、成本最低的途径,传统的信控方法主要包括固定配时控制、感应控制和自适应控制等。SCATS(Sydney Coordinated Adaptive Traffic System)和SCOOT(Split Cycle Offset Optimizing Technique)是目前广泛使用的自适应交通信控系统,它们利用简化的交通模型求解最优的信号控制策略;但是简化模型的建立依赖大量的假设和经验方程,在复杂多变的真实交通场景下,这类系统难以达到最佳效果。近年来,随着人工智能技术的发展,深度强化学习(Deep Reinforcement Learning,DRL)在交通信号控制方面展现出卓越的应用前景。
[0003]DRL结合了DL的强感知能力与RL的强本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结合状态预测的深度强化学习交通信号控制方法,其特征在于,包括如下步骤:(1)路网环境、车流数据建模;用SUMO对路网进行建模,包括单路口以及多路口,根据现实交通场景的情形模拟车辆的生成;(2)深度强化学习算法选择与三要素设计;选择DRL智能体控制交通信号,采用DTSE的方式精心设计状态,包含路网中多种交通信息,并根据实际情况设计动作与奖励;(3)预测未来的交通状态;使用动态分配、卡尔曼滤波或神经网络方法对步骤(2)中设计的状态进行预测,预测状态将与当前状态一起输入DRL智能体进行最优决策;(4)训练模型;选择合适的优化器以及设置超参数,利用SUMO生成的车流数据对步骤(2)中的DRL智能体以及步骤(3)中的预测模型进行训练,训练完后保存最后的模型;(5)实验测试;用同一分布生成的车流数据对发明的控制方法进行测试评估,定义评价指标,并与其他控制方法进行比较。2.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法,其特征在于,步骤(1)中,用SUMO仿真软件对路口进行建模,每个路口都是双向六车道,车流数据包括仿真时长、车辆生成方式、车辆数目以及行驶轨迹,车辆的生成服从韦伯分布,设置三种车辆密度,分别对应低、中、高三种流量条件,每辆车以一定的概率直行或是转弯。3.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法,其特征在于,步骤(2)中,DRL模型采用D3QN,使用经验回放来更新目标Q值,将Q网络分为价值函数与优势函数两部分,对网络结构进行优化;智能体状态设计如下:按一定距离比例将车道分为若干元胞,计算...

【专利技术属性】
技术研发人员:周大可唐慕尧杨欣
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1