【技术实现步骤摘要】
一种基于物联网设备的强化学习可变时长信号灯控制方法
[0001]本专利技术属于计算机
,涉及深度强化学习算法以及信号灯控制问题,尤其涉及在高度复杂的实时交通环境中,根据物联网设备可获取的实时交通数据学习生成一个有效的信号灯控制策略。
技术介绍
[0002]近年来,随着我国汽车持有量的迅猛增加,越来越多的道路交通问题频繁出现,比如交通规划问题、道路安全问题、道路拥塞问题、交通管制问题等等。交通拥堵一直是设计高效基础设施的关键问题,但由于交通需求的快速增长,交通拥堵现象已经成为一个突出的问题。此外交通阻塞还带来了交通环境污染,交通治安混乱等一系列问题,严重影响了人们的出行质量和生活质量。而交叉路口的信号灯作为控制交通的最小单位,如何制定合理的控制策略成为研究的重点。
[0003]传统的固定逻辑的交通信号控制器使用预先定义的信号相位和绿灯时间来控制信号灯,不能根据交通情况的变化而做出灵活调整,这在交通流动态变化的背景下很难有效地对交通进行控制和引导。因此如何根据交通状况实时地控制信号灯,从而达到对总体交通流量的动态控制,是目前的研究热点之一。强化学习作为一种“试错”的学习方法,目前越来越多地被应用到信号灯控制的问题上来。
[0004]然而由于不精确的建模,现有的基于强化学习的信号灯控制方法难以快速地从复杂的交通信息中提取出有效内容,以引导模型收敛到一个优秀的控制策略。同时,现有的方法为了简化交通建模,通常为信号灯设置固定的绿灯时长,这实际上造成了控制时间的浪费。因此,如何设计准确合理的强化学习方法,以 ...
【技术保护点】
【技术特征摘要】
1.一种基于物联网设备的强化学习可变时长信号灯控制方法,其特征在于,包括:步骤1:通过物联网设备采集到的实时交通数据生成新定义的强度信息;步骤2:以步骤1为基础设计强化学习方法;步骤3:每个路口配置一个强化学习智能体,每当当前相位的绿灯时长用尽时,智能体通过处理路口及道路物联网设备采集到的交通数据,为信号灯选择一个最佳相位,同时采集到的交通数据以及所选择的相位动作将被存储用来训练智能体;步骤4:步骤3所述智能体将根据所选相位选择最合理的绿灯时长,并为交通信号灯应用所选相位以及绿灯时长;所述时长通过当前时刻各车道上车辆数量计算所得;步骤5:存储数据并通过强化学习智能体的回放机制来更新网络参数。2.如权利要求1所述的方法,其特征在于,所述步骤1中所述物联网设备包括测速仪、传感器;所述实时交通数据包括车辆的位置和速度;所述强度信息包括车辆、车道、动作、相位和路口的强度;所述车辆的强度的计算公式为:其中,车辆速度为v,当前车道可允许的最大行驶速度为v
max
,车道长度为L,车辆距离路口距离为x,并引入权重系数δ;所述车道的强度为当前车道上所有车辆强度之和,即vehicle
i
表示车道lane上的第i辆车,表示车道lane上的第i辆车的强度;所述动作强度为当前动作下“驶进路口的车道强度”与“驶出路口的车道强度的平均值”的差值,即其中,lane
in
表示该动作下的驶入车道集合,lane
out
表示从驶入车道可到达的驶出车道集合,lane
i
表示车道集合中的第i条车道,lane
j
表示车道集合中的第j条车道,|lane
out
|表示驶出车道的数量,表示第i条车道的强度,表示第j条车道的强度;所述相位强度为此相位下允许运动的动作强度之和,即movement
i
表示组成相位phase的第i个动作,表示动作i对应的强度;所述路口强度为所有驶入路口的车辆强度之和减去驶出路口的车辆强度之和,表示为:其中,lane
in
表示路口的驶入车道集合,lane
out
表示路口的驶出车道集合,lane
i
表示车道集合中的第i条车道,lane
j
表示车道集合中的第j条车道,表示第i条车道的强度,
表示第j条车道的强度。3.如权利要求2所述的方法,其特征在于,路口I的邻居路口的强度为:其中,lane
in
由邻居路口的进车道组成,这些进车道上的车辆将驶向路口I,lane
i
表示车道集合中的第i条车道,表示第i条车道的强度;n0表示单位时间内通过路口的车辆数,t表示邻居路口的绿灯剩余时间,N为此时lane
in
上的车辆总数,ω为权重系数。4.如权利要求1所述的方法,其特征在于,所述步骤...
【专利技术属性】
技术研发人员:陈铭松,赵吴攀,叶豫桐,胡铭,夏珺,韩定定,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。