一种基于物联网设备的强化学习可变时长信号灯控制方法技术

技术编号:28762049 阅读:18 留言:0更新日期:2021-06-09 10:38
本发明专利技术提出了一种基于物联网设备的强化学习可变时长信号灯控制方法,主要包含以下几方面的内容:设计了一种基于交叉路口“强度”概念的强化学习方法,利用物联网设备采集到的各种实时交通信息(如车辆的位置,速度等)来控制信号灯的相位选择。同时可根据各条车道上的车辆数量选择一个最合理的绿灯时长。本发明专利技术能够在交通动态变化的情况下快速地收敛到一个优秀的信号灯控制策略,极大地缩短策略的学习时间并提升策略的控制质量。间并提升策略的控制质量。间并提升策略的控制质量。

【技术实现步骤摘要】
一种基于物联网设备的强化学习可变时长信号灯控制方法


[0001]本专利技术属于计算机
,涉及深度强化学习算法以及信号灯控制问题,尤其涉及在高度复杂的实时交通环境中,根据物联网设备可获取的实时交通数据学习生成一个有效的信号灯控制策略。

技术介绍

[0002]近年来,随着我国汽车持有量的迅猛增加,越来越多的道路交通问题频繁出现,比如交通规划问题、道路安全问题、道路拥塞问题、交通管制问题等等。交通拥堵一直是设计高效基础设施的关键问题,但由于交通需求的快速增长,交通拥堵现象已经成为一个突出的问题。此外交通阻塞还带来了交通环境污染,交通治安混乱等一系列问题,严重影响了人们的出行质量和生活质量。而交叉路口的信号灯作为控制交通的最小单位,如何制定合理的控制策略成为研究的重点。
[0003]传统的固定逻辑的交通信号控制器使用预先定义的信号相位和绿灯时间来控制信号灯,不能根据交通情况的变化而做出灵活调整,这在交通流动态变化的背景下很难有效地对交通进行控制和引导。因此如何根据交通状况实时地控制信号灯,从而达到对总体交通流量的动态控制,是目前的研究热点之一。强化学习作为一种“试错”的学习方法,目前越来越多地被应用到信号灯控制的问题上来。
[0004]然而由于不精确的建模,现有的基于强化学习的信号灯控制方法难以快速地从复杂的交通信息中提取出有效内容,以引导模型收敛到一个优秀的控制策略。同时,现有的方法为了简化交通建模,通常为信号灯设置固定的绿灯时长,这实际上造成了控制时间的浪费。因此,如何设计准确合理的强化学习方法,以快速学习到一个有效的可变时长信号灯控制策略已成为亟待解决的问题。

技术实现思路

[0005]为了解决上述技术的不足,本专利技术的目的是提供一种新的基于物联网设备的强化学习可变时长信号灯控制方法,设计了一种基于交叉路口“强度”概念的强化学习方法,利用物联网设备采集到的各种实时交通信息(如车辆的位置,速度等)来控制信号灯的相位选择。同时可根据各条车道上的车辆数量选择一个最合理的绿灯时长。
[0006]本专利技术方法包括以下具体步骤:
[0007]步骤1:基于物联网设备获取实时交通数据,对获取的交通信息进行处理,根据采集到的交通数据生成新定义的强度信息;物联网设备包括测速仪和传感器;实时交通数据包括车辆的位置和速度;强度信息包括车辆、车道、动作、相位和路口的强度。
[0008]经过广泛的调查研究发现,目前的大部分强化学习方法都倾向于设计复杂的状态以包括尽可能多的交通信息,然而复杂的设计通常伴随着漫长的学习过程。本专利技术在充分考虑各种交通数据的情况下,提出了一个全新的“强度”的概念,在物联网设备可获取的车辆位置、速度数据的基础上,可计算车辆、车道、动作、相位和路口的强度。基于强度的定义
来设计强化学习方法可以大大缩短策略学习过程。
[0009]首先定义车辆的强度。假设当前车辆速度为v,当前车道可允许的最大行驶速度为v
max
,车道长度为L,车辆距离路口距离为x,并引入权重系数δ,则此时车辆强度为:
[0010][0011]在此基础上,本专利技术定义车道强度为当前车道上所有车辆强度之和,即vehicle
i
表示车道lane上的第i辆车,表示车道lane上的第i辆车的强度。
[0012]动作强度为当前动作下“驶进路口的车道强度”与“驶出路口的车道强度的平均值”的差值,即
[0013][0014]其中lane
in
表示该动作下的驶入车道集合,lane
out
表示从驶入车道可到达的驶出车道集合, lane
i
表示车道集合中的第i条车道,lane
j
表示车道集合中的第j条车道,|lane
out
|表示驶出车道的数量,表示第i条车道的强度,表示第j条车道的强度。
[0015]相位强度为此相位下允许运动的动作强度之和,即movement
i
表示组成相位phase的第i个动作,表示动作i对应的强度。
[0016]本专利技术定义路口强度为所有驶入路口的车辆强度之和减去驶出路口的车辆强度之和,表示为:
[0017][0018]其中,lane
in
表示路口的驶入车道集合,lane
out
表示路口的驶出车道集合,lane
i
表示车道集合中的第i条车道,lane
j
表示车道集合中的第j条车道,表示第i条车道的强度,表示第j条车道的强度。
[0019]此外,为了实现相邻路口信号灯之间的控制协同,本专利技术定义路口I的邻居路口的强度为:
[0020][0021]其中lane
in
由邻居路口的进车道组成,这些进车道上的车辆将驶向路口I,lane
i
表示车道集合中的第i条车道,表示第i条车道的强度。n0表示单位时间内通过路口的车辆数,t 表示邻居路口的绿灯剩余时间,N为此时lane
in
上的车辆总数,ω为权重系数。
[0022]步骤2:设计强化学习方法,生成强化学习状态:
[0023]强化学习方法通常包含三个要素:状态,动作及奖励,本专利技术设计如下:
[0024]状态:状态为智能体通过物联网设备对环境观察后计算得到,包含各个相位的强度,直接邻居路口的强度以及路口的当前相位。其中各个相位的强度以及直接邻居路口的强度可通过路测速度传感器以及路口摄像头采集到的车辆速度、位置计算得到,路口当前相位可直接读取信号灯当前状态得到。
[0025]以典型的四向交叉路口为例,若可选相位有4个,路口当前相位为p,则状态表示为若某个方向上没有直接邻居路口,则该方向上的邻居路口强度取值为0。
[0026]动作:表示模型与环境交互所采取的行为,在信号灯控制问题当中,动作一般设置为相位编号。若可选相位有4个,则动作空间为{0,1,2,3}。
[0027]奖励:奖励体现在某个状态下执行某个动作的好坏程度,反映在当前状态下所采取的行动的质量,以指导学习过程。设置为路口强度的负值。这意味着若某个动作能够更大幅度地减小路口强度,这个动作则被认为是一个更好的动作。
[0028]设计的关键是状态和奖励,通过实时交通数据计算得到的各种强度信息来设计状态和奖励,本专利技术在设计强化学习网络结构时,采取了经典的DQN网络结构。
[0029]步骤3:每个路口配置一个强化学习智能体,控制交通信号灯的相位选择。
[0030]每当当前相位的绿灯时长用尽时,智能体通过处理路口及道路物联网设备采集到的交通数据,为信号灯选择一个新的最佳相位。同时采集到的交通数据以及所选择的相位将被存储用来训练智能体。
[0031]相位的选择策略由所述基于强度机制的强化学习方法训练所得。智能体与交通环境进行交互,通过实时获取的交通数据来训练智能体,在控制信号灯的同时不断优化模型参数,逐步学习到一个更优秀的控制策略,并且策略可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于物联网设备的强化学习可变时长信号灯控制方法,其特征在于,包括:步骤1:通过物联网设备采集到的实时交通数据生成新定义的强度信息;步骤2:以步骤1为基础设计强化学习方法;步骤3:每个路口配置一个强化学习智能体,每当当前相位的绿灯时长用尽时,智能体通过处理路口及道路物联网设备采集到的交通数据,为信号灯选择一个最佳相位,同时采集到的交通数据以及所选择的相位动作将被存储用来训练智能体;步骤4:步骤3所述智能体将根据所选相位选择最合理的绿灯时长,并为交通信号灯应用所选相位以及绿灯时长;所述时长通过当前时刻各车道上车辆数量计算所得;步骤5:存储数据并通过强化学习智能体的回放机制来更新网络参数。2.如权利要求1所述的方法,其特征在于,所述步骤1中所述物联网设备包括测速仪、传感器;所述实时交通数据包括车辆的位置和速度;所述强度信息包括车辆、车道、动作、相位和路口的强度;所述车辆的强度的计算公式为:其中,车辆速度为v,当前车道可允许的最大行驶速度为v
max
,车道长度为L,车辆距离路口距离为x,并引入权重系数δ;所述车道的强度为当前车道上所有车辆强度之和,即vehicle
i
表示车道lane上的第i辆车,表示车道lane上的第i辆车的强度;所述动作强度为当前动作下“驶进路口的车道强度”与“驶出路口的车道强度的平均值”的差值,即其中,lane
in
表示该动作下的驶入车道集合,lane
out
表示从驶入车道可到达的驶出车道集合,lane
i
表示车道集合中的第i条车道,lane
j
表示车道集合中的第j条车道,|lane
out
|表示驶出车道的数量,表示第i条车道的强度,表示第j条车道的强度;所述相位强度为此相位下允许运动的动作强度之和,即movement
i
表示组成相位phase的第i个动作,表示动作i对应的强度;所述路口强度为所有驶入路口的车辆强度之和减去驶出路口的车辆强度之和,表示为:其中,lane
in
表示路口的驶入车道集合,lane
out
表示路口的驶出车道集合,lane
i
表示车道集合中的第i条车道,lane
j
表示车道集合中的第j条车道,表示第i条车道的强度,
表示第j条车道的强度。3.如权利要求2所述的方法,其特征在于,路口I的邻居路口的强度为:其中,lane
in
由邻居路口的进车道组成,这些进车道上的车辆将驶向路口I,lane
i
表示车道集合中的第i条车道,表示第i条车道的强度;n0表示单位时间内通过路口的车辆数,t表示邻居路口的绿灯剩余时间,N为此时lane
in
上的车辆总数,ω为权重系数。4.如权利要求1所述的方法,其特征在于,所述步骤...

【专利技术属性】
技术研发人员:陈铭松赵吴攀叶豫桐胡铭夏珺韩定定
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1