【技术实现步骤摘要】
基于群体智能强化学习的交通信号灯优化方法
[0001]本专利技术属于人工智能(强化学习)领域,特别涉及一种基于群体智能强化学习的交通信号灯优化方法。
技术介绍
[0002]领域内总体技术现状描述
[0003]交通调度过程中,交通信号灯成为控制交通的关键。以往的交通信号灯都处于静态状态,信号灯时长以及切换速度均不能动态更改。而随着交通复杂度提高,交通信号灯时常会造成适得其反的效果。因此将强化学习决策过程加入信号灯控制中,通过道路上检测装置,动态获取环境反馈,决策模型中的状态与奖励处于动态状态,跟随环境反馈而做出适当更改。通过群体智能之间的合作与博弈,做出一个恰当的决策方法。近年来,随着群体智能以及博弈论研究的深入,群体智能已经被用于交通决策中。群体智能的信息交互通过交通拓扑网络传递,即时的信息交互,将让智能体具有对即将到来车流的预见作用,能够提前采取适当决策舒缓交通拥堵。群体智能强化学习中三个关键点:状态与行为以及奖励,这三者如何制定,需要通过不断的接近真实状态的交通模拟获取。
[0004]与本专利技术创造最接近的现有技术一
[0005]现有技术一的
技术实现思路
[0006]单智能体强化学习发展已经较为成熟,其采用分布式框架,将智能体分别设立在每个道路交叉口,能够独立地对信号灯进行调度控制。因其智能体的独立性和资源占有率较高,获得一定效率提升。随后深度强化学习应运而生,该技术使得强化学习与与具有感知能力的深度学习结合在一起。
[0007]现有技术一的缺陷
[0008]单智能体 ...
【技术保护点】
【技术特征摘要】
1.基于群体智能强化学习的交通信号灯优化方法,其特征在于,包括以下步骤:S1、将待优化区域的当前交通信号灯配时方案分为具有完全合作关系的n个智能体;S1,S2,
…
,S
n
为智能体当前时刻对应的状态,S
1_next
,S
2_next
,
…
,S
n_next
为智能体下一时刻对应的状态,O1,O2,
…
,O
n
为n个智能体对应的观察值,A1,A2,
…
,A
n
为智能体对应的行为,R0,R1,
…
,R
n
为n个智能体对应的回报,Actor1,Actor2,
…
,Actor
n
为n个智能体构造的Actor本地网络,Ctritic1,Critic2,
…
,Critic
n
为n个智能体的Actor本地网络对应的Critic本地网络,共同构成Actor
‑
Critic1,Actor
‑
Critic2,
…
,Actor
‑
Critic
n
;Actor
global
为全局Actor网络,Critic
global
为全局Critic网络,共同构成Actor
‑
Critic
global
,下标1,2,
…
,n为智能体的编号;S2、初始化n个智能体的参数;所述智能体的参数包括S、行为A、TD_error;S为n个智能体当前时刻对应的状态,TD_error用来衡量每次智能体完成行为A后,此行为从环境中获得的奖励反馈与上一次动作选择带来的奖励反馈之间的差距,用来衡量Actor网络进行的动作选择是否更合理有效;S3、初始化n个智能体对应的Actor
‑
Critic网络,以及全局Actor
‑
Critic
global
网络;S4、基于当前n个智能体的参数,将S分别输入到各自Actor网络中;各自Actor网络分别选择对应智能体的行为A,使环境根据该智能体的状态、行为以及确定的回报函数给出相应的回报R,转移至下一个状态S
next
;S5、将S4步骤获得的S,A,S
next
作为Critic网络的输入,计算获得TD_error;S6、更新本地Actor
‑
Crtic网络的参数和权重;S7、更新全局Actor
‑
Critic
global
网络的参合和权重;S8、重复S4至S7步骤,直到达到设置的回合次数或智能体完成Actor
‑
Critic
global
网络所预设的训练目标,得到训练完善的交通信号灯优化模型;S9、通过交通信号灯优化模型对当前交通信号灯方案进行优化,获得优化后的交通信号灯方案。2.如权利要求1所述的基于群体智能强化学习的交通信号灯优化方法,其特征在于,所述步骤S2中状态S设定包括:状态S利用当前相位序列号idPhase、当前相位对应配时duration以及当前红绿灯路口汇入道路车辆排位长度queue这三个值综合计算获得;每个指标取相应的factor进行数据加权处理利于训练结果的收敛,factor1为idPhase权重,factor2为duration权重,factor3为queue权重,具体状态空间取值公式为:...
【专利技术属性】
技术研发人员:刘双侨,王茂帆,郑皎凌,
申请(专利权)人:四川易方智慧科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。