一种实时监测的强化学习可变时长信号灯控制方法技术

技术编号：34998804 阅读：16 留言：0更新日期：2022-09-21 14:47

本发明专利技术公开了一种实时监测的强化学习可变时长信号灯控制方法，包括：通过事先安装于道路上的物联网设备采集道路上的实时交通数据生成新定义的压力信息；基于上述各个压力信息设计强化学习方法，生成强化学习状态；在每个路口配置一个强化学习智能体，并且设计一个监视属性，通过所述智能体实时判断当前相位下，路口监视属性是否到达阈值；并根据是否达到阈值确定是否对信号灯的相位进行调整；存储数据并通过强化学习智能体的回放机制来更新网络参数；各个路口配置的强化学习智能体通过当前道路情况控制交通信号灯的相位选择。本发明专利技术能够提高强化学习代理的学习能力，快速获得优秀的信号灯控制策略，并且控制效果大大提升。升。升。

全部详细技术资料下载

【技术实现步骤摘要】
一种实时监测的强化学习可变时长信号灯控制方法

[0001]本专利技术属于计算机
，涉及一种实时监测的强化学习可变时长信号灯控制方法，本专利技术涉及深度强化学习算法以及信号灯控制问题，尤其涉及在高度复杂的实时交通环境中，根据物联网设备可获取的实时交通数据学习生成一个有效的信号灯控制策略。

技术介绍

[0002]经济的不断发展使得各地区汽车持有量急剧增加，这严重影响了人们的出行效率。据研究显示，2021年，全球最拥堵城市排名中，伦敦，巴黎，布鲁塞尔位列前三，这些地区，人均交通拥堵损失小时均超过130小时，意味着这些地区的人们在2021年有超过5天时间浪费在等待车辆通行上。且低效的交通出行还会给驾驶员心态产生负面影响。近期，有研究者发现，经常性的停车是导致交通事故的重要原因之一，该行为会对驾驶员的心态产生恶性影响，这将导致堵车后出现撞车等交通事故的概率急剧上升。因此，改善交通出行效率问题是城市治理的重中之重。作为提高交通效率最有希望的手段之一，交通信号优化控制被广泛研究。传统的交通信号灯控制策略往往根据路口车流量的历史信息，基于交通领域的经典算法，为信号灯设置总周期时长和固定的相位变化顺序。然而交通流呈现高度的复杂性和动态性，传统的交通灯控制策略很难适应不断变化的交通流情况。
[0003]近年来，随着路侧单元的升级以及人工智能技术的不断发展，强化学习(RL)在面向交通的网络物理系统(CPS)的控制部件设计中得到了越来越多的研究，特别是在交通系统的信号控制中。信号灯代理根据路侧单元监测设备(摄像头，激光雷达等)...

【技术保护点】

【技术特征摘要】
1.一种基于实时监测的强化学习可变时长信号灯控制方法，其特征在于，包括：步骤1：通过事先安装于道路上的物联网设备采集道路上的实时交通数据生成新定义的压力信息；步骤2：基于步骤1中的各个压力信息设计强化学习方法，生成强化学习状态；步骤3：在每个路口配置一个强化学习智能体，并且设计一个监视属性，通过所述智能体实时判断当前相位下，路口监视属性是否到达阈值；若达到阈值，则信号灯结束当前相位，并通过处理路口及道路物联网设备采集到的交通数据，为信号灯选择一个新的最佳相位，同时采集到的交通数据以及所选择的相位动作将被存储用来训练智能体；步骤4：存储数据并通过强化学习智能体的回放机制来更新网络参数；步骤5：各个路口配置的强化学习智能体通过当前道路情况控制交通信号灯的相位选择。2.如权利要求1所述的方法，其特征在于，步骤1中，所述物联网设备是指包括测速仪、摄像头在内的传感器，所述传感器用来获取车道上包括车辆的速度、位置在内的车辆运行信息；所述实时交通数据包括车辆的位置和速度；所述压力信息包括每条车道的静态压力，动态压力，混合压力；其中静态压力为静止车辆对车道拥堵带来的影响，动态压力为正在行驶车辆对车道拥堵带来的影响，混合压力为车道上所有车辆对车道拥堵带来的影响；所述车道的静态压力的计算公式为：其中，veh表示当前车辆，V
is
表示当前车道i静止车辆的集合，t
s
表示车辆在该道路上静止等待的时间，ω为所述静止等待时间的系数；所述车道的动态压力的计算公式为：其中，veh表示当前车辆，V
id
表示当前车道i正在行驶车辆的集合，v表示车辆速度，L表示车辆距离路口的距离，L
max
表示道路长度系数，所述道路长度系数为当前车道长度的1/4；所述车道的混合压力的计算公式为：P
m
＝P
s
+P
d
，其中，P
s
表示当前车道的静态压力，P
d
表示当前车道的动态压力。3.如权利要求1所述的方法，其特征在于，步骤2中,所述强化学习方法包括三个要素：状态、动作及奖励；所述状态为智能体通过物联网设备对道路上车辆进行观察和计算得到，包括当前路口下所有车道的静态压力、动态压力、混合压力；所述各个车道的压力信息通过路测速度传感器以及路口摄像头采集到的车辆速度、位置计算得到；路口当前相位通过直接读取信号灯当前状态得到；路口的监视属性通过当前路口下所有车道的静态压力和动态压力计算得到；所述动作表示强化学习模型与环境交互所采取的行为，设置为相位...

【专利技术属性】
技术研发人员：陈铭松，方则宽，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人