基于群体智能强化学习的交通信号灯优化方法技术

技术编号:30765581 阅读:19 留言:0更新日期:2021-11-10 12:24
本发明专利技术公开了一种基于群体智能强化学习的交通信号灯优化方法,包括以下步骤:S1、共同构成Actor

【技术实现步骤摘要】
基于群体智能强化学习的交通信号灯优化方法


[0001]本专利技术属于人工智能(强化学习)领域,特别涉及一种基于群体智能强化学习的交通信号灯优化方法。

技术介绍

[0002]领域内总体技术现状描述
[0003]交通调度过程中,交通信号灯成为控制交通的关键。以往的交通信号灯都处于静态状态,信号灯时长以及切换速度均不能动态更改。而随着交通复杂度提高,交通信号灯时常会造成适得其反的效果。因此将强化学习决策过程加入信号灯控制中,通过道路上检测装置,动态获取环境反馈,决策模型中的状态与奖励处于动态状态,跟随环境反馈而做出适当更改。通过群体智能之间的合作与博弈,做出一个恰当的决策方法。近年来,随着群体智能以及博弈论研究的深入,群体智能已经被用于交通决策中。群体智能的信息交互通过交通拓扑网络传递,即时的信息交互,将让智能体具有对即将到来车流的预见作用,能够提前采取适当决策舒缓交通拥堵。群体智能强化学习中三个关键点:状态与行为以及奖励,这三者如何制定,需要通过不断的接近真实状态的交通模拟获取。
[0004]与本专利技术创造最接近的现有技术一
[0005]现有技术一的
技术实现思路

[0006]单智能体强化学习发展已经较为成熟,其采用分布式框架,将智能体分别设立在每个道路交叉口,能够独立地对信号灯进行调度控制。因其智能体的独立性和资源占有率较高,获得一定效率提升。随后深度强化学习应运而生,该技术使得强化学习与与具有感知能力的深度学习结合在一起。
[0007]现有技术一的缺陷
[0008]单智能体强化学习会因其分布式结构造成协调性较差,信息存在封闭性,不能形成有效的合作。出现突发情况时,单一智能体停止工作,就会造成整个系统的工作停滞甚至崩溃。Q学习的学习适合处理离散的状态,并且使用Q学习部署到现在的交通环境中,面对单路口环境下,路口的情况有成千上万种,Q表的容量有限的,无法统计数以万计的状态,并不适合交通环境。
[0009]与本专利技术创造最接近的现有技术二
[0010]现有技术二的
技术实现思路

[0011]群体智能强化学习以最大程度地减少车辆行驶时间或多个交叉路口的站点数量例如文献。在常规的多路口环境中可以实现协调通过设置路网的所有交叉点之间的绿灯开始之间的时间间隔。还有些优化的方法例如文献,以最小化车辆的行驶时间和/或多个交叉路口的站点数量,代替优化偏移量或最大压力,旨在最大化网络的吞吐量,从而最小化行程时间。但是很多这样的方法依旧是根据静态环境或者假设来构建的简化交通状况,并不保证实际的运营会有所改善。
[0012]现有技术二的缺陷
[0013]随着智能体数量的增长,集中式训练的计算工作量太大;在测试期间。每个智能体都是独立行动的,在动态的环境下智能体的变动需要根据结合周围其他智能体进行上下协调。

技术实现思路

[0014]针对现有利用集中式强化学习优化交通组织存在的缺陷,使用分散式的强化学习智能体来控制多路口进行交互。分散式的通讯更加的实用,并不需要集中决策具有良好的伸缩性,但在模型的收敛和速度上往往是很不稳定的。
[0015]本专利技术的目的是通过以下技术方案来实现的:
[0016]基于群体智能强化学习的交通信号灯优化方法,包括以下步骤:
[0017]S1、将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体;其中,S为联合状态,S1,S2,

,S
n
为智能体当前时刻对应的状态,S
1_next
,S
2_next


,S
n_next
为智能体下一时刻对应的状态,O1,O2,

,O
n
为n个智能体对应的观察值,A1,A2,

,A
n
为智能体对应的行为,R0,R1,

,R
n
为n个智能体对应的回报,Actor1,Actor2,

,Actor
n
为n个智能体构造的Actor本地网络,Ctritic1,Critic2,

,Critic
n
为n个智能体的Actor本地网络对应的Critic本地网络,共同构成Actor

Critic1,Actor

Critic2,

,Actor

Critic
n
;Actor
global
为全局Actor网络,Critic
global
为全局Critic网络,共同构成Actor

Critic
global
,下标1,2,

,n为智能体的编号;
[0018]S2、初始化n个智能体的参数;
[0019]所述智能体的参数包括S、行为A、TD_error;
[0020]S3、初始化n个智能体对应的Actor

Critic网络,以及全局Actor

Critic
global
网络;
[0021]S4、基于当前n个智能体的参数,将S分别输入到各自Actor网络中;各自Actor网络分别选择对应智能体的行为A,使环境根据该智能体的状态、行为以及确定的回报函数给出相应的回报R,转移至下一个状态S
next

[0022]S5、将S3步骤获得的S,A,S
next
作为Critic网络的输入,计算获得TD_error;
[0023]S6、更新本地Actor

Crtic网络的参数和权重;
[0024]S7、更新全局Actor

Critic
global
网络的参合和权重;
[0025]S8、重复S4至S7步骤,直到达到设置的回合次数或智能体完成Actor

Critic
global
网络所预设的训练目标,得到训练完善的交通信号灯优化模型;
[0026]S9、通过交通信号灯优化模型对当前交通信号灯方案进行优化,获得优化后的交通信号灯方案。
[0027]作为优选方式,所述步骤S2中状态S设定包括:状态S利用当前相位序列号idPhase、当前相位对应配时duration以及当前红绿灯路口汇入道路车辆排位长度queue这三个值综合计算获得;
[0028]每个指标取相应的factor进行数据加权处理利于训练结果的收敛,factor1为idPhase权重,factor2为duration权重,factor3为queue权重,具体状态空间取值公式为:
[0029]S=idPhase*factor1+duration*factor2+queue*factor3;
[0030]其中factor1=l本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于群体智能强化学习的交通信号灯优化方法,其特征在于,包括以下步骤:S1、将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体;S1,S2,

,S
n
为智能体当前时刻对应的状态,S
1_next
,S
2_next


,S
n_next
为智能体下一时刻对应的状态,O1,O2,

,O
n
为n个智能体对应的观察值,A1,A2,

,A
n
为智能体对应的行为,R0,R1,

,R
n
为n个智能体对应的回报,Actor1,Actor2,

,Actor
n
为n个智能体构造的Actor本地网络,Ctritic1,Critic2,

,Critic
n
为n个智能体的Actor本地网络对应的Critic本地网络,共同构成Actor

Critic1,Actor

Critic2,

,Actor

Critic
n
;Actor
global
为全局Actor网络,Critic
global
为全局Critic网络,共同构成Actor

Critic
global
,下标1,2,

,n为智能体的编号;S2、初始化n个智能体的参数;所述智能体的参数包括S、行为A、TD_error;S为n个智能体当前时刻对应的状态,TD_error用来衡量每次智能体完成行为A后,此行为从环境中获得的奖励反馈与上一次动作选择带来的奖励反馈之间的差距,用来衡量Actor网络进行的动作选择是否更合理有效;S3、初始化n个智能体对应的Actor

Critic网络,以及全局Actor

Critic
global
网络;S4、基于当前n个智能体的参数,将S分别输入到各自Actor网络中;各自Actor网络分别选择对应智能体的行为A,使环境根据该智能体的状态、行为以及确定的回报函数给出相应的回报R,转移至下一个状态S
next
;S5、将S4步骤获得的S,A,S
next
作为Critic网络的输入,计算获得TD_error;S6、更新本地Actor

Crtic网络的参数和权重;S7、更新全局Actor

Critic
global
网络的参合和权重;S8、重复S4至S7步骤,直到达到设置的回合次数或智能体完成Actor

Critic
global
网络所预设的训练目标,得到训练完善的交通信号灯优化模型;S9、通过交通信号灯优化模型对当前交通信号灯方案进行优化,获得优化后的交通信号灯方案。2.如权利要求1所述的基于群体智能强化学习的交通信号灯优化方法,其特征在于,所述步骤S2中状态S设定包括:状态S利用当前相位序列号idPhase、当前相位对应配时duration以及当前红绿灯路口汇入道路车辆排位长度queue这三个值综合计算获得;每个指标取相应的factor进行数据加权处理利于训练结果的收敛,factor1为idPhase权重,factor2为duration权重,factor3为queue权重,具体状态空间取值公式为:...

【专利技术属性】
技术研发人员:刘双侨王茂帆郑皎凌
申请(专利权)人:四川易方智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1