当前位置: 首页 > 专利查询>清华大学专利>正文

基于强化学习和相位竞争的自适应信号控制方法及系统技术方案

技术编号:33288601 阅读:27 留言:0更新日期:2022-05-01 00:02
本发明专利技术涉及一种基于强化学习和相位竞争的自适应信号控制方法及系统,其包括:与仿真环境交互得到交叉口状态,利用策略网络π

【技术实现步骤摘要】
基于强化学习和相位竞争的自适应信号控制方法及系统


[0001]本专利技术涉及一种城市交通信号控制领域,特别是关于一种基于深度强化学习和相位竞争的自适应信号控制方法及系统。

技术介绍

[0002]21世纪以来,随着我国经济水平的飞速发展,居民的生活水平得到了极大的提高。因此,如何合理有效的提升交通出行效率,从而缓解交通拥堵问题是近年来政府部门关注的重点。而交叉口一直是造成交通拥堵的主要原因,因此通过对其信号配时的优化来缓解交通拥堵问题也成为了近些年来的一个研究热点。
[0003]传统的信号控制方法,大多都是基于交通工程学领域的知识进行建模和优化,如 Webster、GreenWave、SCATS、SCOOT等方法。但这些方法多数都是事先制定好一套或者若干套信号配时方案,面对不同的交叉口结构和车流分布时很难面面俱到。而近年来与博弈论、智能优化算法相结合的信号控制算法也面临着需要较多先验知识、难以实时进行控制、不适于大规模路网等问题。
[0004]而近些年来深度强化学习的发展为信号控制问题提供了一种新的解决手段。这些方法首先通过智能交本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习和相位竞争的自适应信号控制方法,其特征在于,包括:与仿真环境交互得到交叉口状态,利用策略网络π
θ
的输出得到决策,在决策后收集奖励和下一时刻的状态,得到样本仿真轨迹;基于仿真轨迹,对PPO网络进行训练和参数更新,重复若干轮直至收敛,收敛后模型基于交通流量的实时状态进行信号调整控制信号。2.如权利要求1所述基于强化学习和相位竞争的自适应信号控制方法,其特征在于,所述样本仿真轨迹的获取方法包括:定义交叉口的状态空间,通过获取交叉口的实时统计量组成状态,包括车道的车辆数目,车道的车辆延迟和当前时刻的相位以及当前时刻的相位时间;将获取得到交叉口的状态作为策略网络π
θ
的输入,得到动作的输出;动作的输出为下一时刻的相位,根据被选中的相位确定当前相位的状态;在得到动作后,在仿真系统中执行该动作,并计算奖励r和下一时刻的状态;根据相位的需求分数、动作和奖励得到当前时刻的样本轨迹向量,由仿真时段内的所有时刻的样本轨迹向量构成完成的样本仿真轨迹。3.如权利要求2所述基于强化学习和相位竞争的自适应信号控制方法,其特征在于,所述根据被选中的相位确定当前相位的状态,包括:被选中的相位执行t
min
的时间直到下一次时间间隔,如果选中的相位与当前相位相同,则直接将当前相位延长t
min
;如果不同,则相位切换之间会有预先设定时长的红灯时间,保证安全。4.如权利要求2所述基于强化学习和相位竞争的自适应信号控制方法,其特征在于,所述将获取得到交叉口的状态作为策略网络π
θ
的输入,得到动作的输出,包括:将获取得到交叉口的状态分为状态统计量、当前相位和当前相位时间三部分特征;所述状态统计量的输入维度为[batch_size,车道数目,2],在最后一个维度用全连接层的方式进行状态提取,输出维度为4的神经元d
i
,将每个相位对应的车道的输出相加,得到相位的特征d
p
;对于当前相位和当前相位时间两个特征,将其映射为4维的相位向量f
p
和时间向量t
p
,一...

【专利技术属性】
技术研发人员:胡坚明吴智楷彭黎辉裴欣
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1