一种实时监测的强化学习可变时长信号灯控制方法技术

技术编号:34998804 阅读:16 留言:0更新日期:2022-09-21 14:47
本发明专利技术公开了一种实时监测的强化学习可变时长信号灯控制方法,包括:通过事先安装于道路上的物联网设备采集道路上的实时交通数据生成新定义的压力信息;基于上述各个压力信息设计强化学习方法,生成强化学习状态;在每个路口配置一个强化学习智能体,并且设计一个监视属性,通过所述智能体实时判断当前相位下,路口监视属性是否到达阈值;并根据是否达到阈值确定是否对信号灯的相位进行调整;存储数据并通过强化学习智能体的回放机制来更新网络参数;各个路口配置的强化学习智能体通过当前道路情况控制交通信号灯的相位选择。本发明专利技术能够提高强化学习代理的学习能力,快速获得优秀的信号灯控制策略,并且控制效果大大提升。升。升。

【技术实现步骤摘要】
一种实时监测的强化学习可变时长信号灯控制方法


[0001]本专利技术属于计算机
,涉及一种实时监测的强化学习可变时长信号灯控制方法,本专利技术涉及深度强化学习算法以及信号灯控制问题,尤其涉及在高度复杂的实时交通环境中,根据物联网设备可获取的实时交通数据学习生成一个有效的信号灯控制策略。

技术介绍

[0002]经济的不断发展使得各地区汽车持有量急剧增加,这严重影响了人们的出行效率。据研究显示,2021年,全球最拥堵城市排名中,伦敦,巴黎,布鲁塞尔位列前三,这些地区,人均交通拥堵损失小时均超过130小时,意味着这些地区的人们在2021年有超过5天时间浪费在等待车辆通行上。且低效的交通出行还会给驾驶员心态产生负面影响。近期,有研究者发现,经常性的停车是导致交通事故的重要原因之一,该行为会对驾驶员的心态产生恶性影响,这将导致堵车后出现撞车等交通事故的概率急剧上升。因此,改善交通出行效率问题是城市治理的重中之重。作为提高交通效率最有希望的手段之一,交通信号优化控制被广泛研究。传统的交通信号灯控制策略往往根据路口车流量的历史信息,基于交通领域的经典算法,为信号灯设置总周期时长和固定的相位变化顺序。然而交通流呈现高度的复杂性和动态性,传统的交通灯控制策略很难适应不断变化的交通流情况。
[0003]近年来,随着路侧单元的升级以及人工智能技术的不断发展,强化学习(RL)在面向交通的网络物理系统(CPS)的控制部件设计中得到了越来越多的研究,特别是在交通系统的信号控制中。信号灯代理根据路侧单元监测设备(摄像头,激光雷达等)传来的信息(车的速度、距离路口距离等),计算得到路口状态,从而向相关的信号灯发出控制信息(相位,相位时长等),使信号灯展示合理的信号引导车辆通行。相较于传统的信号灯控制方法,强化学习方法让信号灯自主学习得到下一时刻的信号和信号的时长,使得强化学习方法具备较强的自适应性和动态性。但是,目前交通信号灯控制领域的强化学习方法,大多只考虑了如何设计合理的状态和奖励得到准确的动作(信号),而忽视了动作持续时间的设计。不同于其他领域强化学习方法,交通领域的强化学习方法动作并不会因回合的结束而停止,而需要手动停止,因而动作的时长与奖励息息相关。不合理的时长设计将导致部分情况下,强化学习选择出了最佳的信号灯信号,但却因为不合理的持续时间,使得该信号给路口的交通状况产生了负面影响。且这些负面影响还会让信号灯对这类信号产生错误的判断,从而影响强化学习的学习效果和学习速率,甚至导致学习过程无法收敛。

技术实现思路

[0004]为了解决现有技术存在的不足,本专利技术的目的是提供一种实时监测的强化学习可变时长信号灯控制方法,设计了一种基于交叉路口“混合压力”概念的强化学习方法,利用物联网设备采集到的各种实时交通信息(如车辆的位置,速度等),实时监控路口状态,使信号灯在合适的时机转换相位,并优化信号灯的相位控制策略,提升控制效果。
[0005]所述信号灯的相位指的是不冲突的信号的组合。
[0006]本专利技术方法包括以下具体步骤:
[0007]步骤1:基于事先安装于道路上的物联网设备获取道路上的实时交通数据,对获取的交通信息进行处理,根据采集到的道路实时交通数据生成新定义的压力信息;物联网设备包括测速仪、摄像头等传感器;所述传感器用来获取车道上包括车辆的速度、位置在内的车辆运行信息;实时交通数据包括车辆的位置和速度;所述压力信息包括每条车道的静态压力,动态压力,混合压力;其中静态压力为静止车辆对车道拥堵带来的影响,动态压力为正在行驶车辆对车道拥堵带来的影响,混合压力由车道的静态压力和动态压力相结合组成,表示车道上所有车辆对车道拥堵带来的影响。
[0008]经过广泛的调查研究发现,路口的压力与交通效率有关。更少的静止车辆将导致更短的平均车辆行驶时间。然而,路口状态的简单定义并不能完全反映路口的通行效率。本专利技术在充分考虑各种交通数据的情况下,提出了一个全新的“混合压力”的概念,在物联网设备获取的车辆位置、速度数据的基础上,计算车道的静态压力、动态压力、混合压力以及监视属性。
[0009]首先定义车道的静态压力。假设当前车道i静止车辆的集合为V
is
,当前车为veh,车辆在该道路上静止等待的时间为t
s
,静止等待时间系数为ω,则此时车道的静态压力为:
[0010][0011]其次定义车道的动态压力。假设当前车道i正在行驶的车辆的集合为V
id
,当前车为veh,车辆速度为v,车辆距离路口的距离为L,道路长度系数为L
max
,一般为当前车道长度的1/4。道路长度系数与车辆的速度以及道路的长度有关,一般而言车道长度1/4的距离内的车辆对路口拥堵程度的影响较为明显。此时车道的动态压力为:
[0012][0013]在此基础上,本专利技术定义车道的混合压力。假设当前车道i的静态压力为P
s
,当前车道i的动态压力为P
d
,则此时车道的混合压力为:
[0014]P
m
=P
s
+P
d
[0015]另外,本专利技术还定义了监视属性,表示当前相位下路口通行的效率:
[0016][0017]其中,j表示第j号路口,l
i
表示第i号车道,l
act
表示当前相位下允许车辆通过路口的车道,l
nac
表示当前相位下禁止车辆通过路口的车道,P
s
表示当前车道的静态压力,P
d
表示当前车道的动态压力,ε表示一个极小值,保障分母不为0。
[0018]监视属性中分子表示当前正在同行车道上动态压力的和,分母表示当前禁止通行车道中,静态压力的最大值。通过对比两种压力值,监视属性能够体现当前相位在该时刻缓解路口拥堵的程度。
[0019]步骤2:设计强化学习方法,生成强化学习状态:
[0020]强化学习方法通常包含三个要素:状态,动作及奖励,本专利技术设计如下:
[0021]状态:为智能体通过物联网设备对道路上车辆进行观察和计算得到,包括当前路口下所有车道的静态压力、动态压力、混合压力;本专利技术定义第j号路口的强化学习代理为Agent
j
。Agent
j
通过物联网设备观察系统环境的一部分,通过分析各车道上车的速度和位置,计算该路口各车道的压力信息,作为状态S
j
。所述各个车道的压力信息通过路测速度传感器以及路口摄像头采集到的车辆速度、位置计算得到;路口当前相位通过直接读取信号灯当前状态得到;路口的监视属性通过当前路口下所有车道的静态压力和动态压力计算得到。
[0022]本专利技术中提到的状态由所有车道的混合压力组成。以典型的四向交叉路口为例,若可选相位有4个,则状态表示为其中为车辆离开路口的车道,为车辆驶入路口的车道。
[0023]动作:红绿灯需要根据当前状态选择合适的信号,以优化交通效率。在交通信号控制问题上,动作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于实时监测的强化学习可变时长信号灯控制方法,其特征在于,包括:步骤1:通过事先安装于道路上的物联网设备采集道路上的实时交通数据生成新定义的压力信息;步骤2:基于步骤1中的各个压力信息设计强化学习方法,生成强化学习状态;步骤3:在每个路口配置一个强化学习智能体,并且设计一个监视属性,通过所述智能体实时判断当前相位下,路口监视属性是否到达阈值;若达到阈值,则信号灯结束当前相位,并通过处理路口及道路物联网设备采集到的交通数据,为信号灯选择一个新的最佳相位,同时采集到的交通数据以及所选择的相位动作将被存储用来训练智能体;步骤4:存储数据并通过强化学习智能体的回放机制来更新网络参数;步骤5:各个路口配置的强化学习智能体通过当前道路情况控制交通信号灯的相位选择。2.如权利要求1所述的方法,其特征在于,步骤1中,所述物联网设备是指包括测速仪、摄像头在内的传感器,所述传感器用来获取车道上包括车辆的速度、位置在内的车辆运行信息;所述实时交通数据包括车辆的位置和速度;所述压力信息包括每条车道的静态压力,动态压力,混合压力;其中静态压力为静止车辆对车道拥堵带来的影响,动态压力为正在行驶车辆对车道拥堵带来的影响,混合压力为车道上所有车辆对车道拥堵带来的影响;所述车道的静态压力的计算公式为:其中,veh表示当前车辆,V
is
表示当前车道i静止车辆的集合,t
s
表示车辆在该道路上静止等待的时间,ω为所述静止等待时间的系数;所述车道的动态压力的计算公式为:其中,veh表示当前车辆,V
id
表示当前车道i正在行驶车辆的集合,v表示车辆速度,L表示车辆距离路口的距离,L
max
表示道路长度系数,所述道路长度系数为当前车道长度的1/4;所述车道的混合压力的计算公式为:P
m
=P
s
+P
d
,其中,P
s
表示当前车道的静态压力,P
d
表示当前车道的动态压力。3.如权利要求1所述的方法,其特征在于,步骤2中,所述强化学习方法包括三个要素:状态、动作及奖励;所述状态为智能体通过物联网设备对道路上车辆进行观察和计算得到,包括当前路口下所有车道的静态压力、动态压力、混合压力;所述各个车道的压力信息通过路测速度传感器以及路口摄像头采集到的车辆速度、位置计算得到;路口当前相位通过直接读取信号灯当前状态得到;路口的监视属性通过当前路口下所有车道的静态压力和动态压力计算得到;所述动作表示强化学习模型与环境交互所采取的行为,设置为相位...

【专利技术属性】
技术研发人员:陈铭松方则宽
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1