System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() DirectLight:基于强化学习估计信号交叉口实时交通信号相位持续时间制造技术_技高网

DirectLight:基于强化学习估计信号交叉口实时交通信号相位持续时间制造技术

技术编号:40331539 阅读:8 留言:0更新日期:2024-02-09 14:23
提供了道路交叉口交通信号控制方法及设备。所提供的方法包括,响应于向所述道路交叉口施加了交通信号相位,获取所述道路交叉口的道路车辆状态;将所述道路车辆状态提供给DirecLight强化学习模型,获得所述DirecLight强化学习模型输出的交通信号相位持续时间参数,用所述DirecLight强化学习模型输出的交通信号相位持续时间参数与所述交通信号相位的参考持续时间相乘,得到估计的所述交通信号相位的交通信号相位持续时间;在时间经过了所述交通信号相位的交通信号相位持续时间后,更新施加给所述道路交叉口的交通信号相位。

【技术实现步骤摘要】

本申请涉及机器学习技术,具体地,涉及利用基于强化学习的direclight模型估计道路交叉口的交通信号相位持续时间的方法及其信息处理设备。


技术介绍

1、随着交通需求的不断增加,提高现有交通基础设施的效率以减少城市拥堵和废气排放是至关重要的。其中,实时自适应交通信号就是提高我国城市交通网络效率的主要工具之一。然而,由于交通系统的复杂性和随机性,交通信号控制(tsc,traffic signalcontrol)仍然是一项具有挑战性的任务。近年来,利用强化学习(rl)的方法来解决tsc的问题已经变得越来越流行。

2、基于强化学习的机器学习技术已经在交通信号控制中应用。中国专利申请cn107134156a提供了基于深度学习的智能交通灯系统及其控制交通灯的方法,中国专利申请cn109544913a提供了基于深度q网络学习的交通灯动态配时算法。中国专利申请cn113012432b提供了云计算与雾计算协同强化学习的交通红绿灯控制系统。

3、深度强化学习(drl,deep reinforcement learning)能够通过深度神经网络使用试错过程来解决tsc问题的挑战。因此,设计一个动态改变交通信号相位(traffic signalphase,tsp)的drl框架可以有效地增加道路的交通流量,如frap[https://dl.acm.org/doi/10.1145/3357384.3357900]、colight[https://dl.acm.org/doi/10.1145/3357384.3357902]、attendlight[https://dl.acm.org/doi/10.5555/3495724.3496067]。虽然这些方法可以根据交通状态任意改变交通信号相位(tsp),但是由于搜索空间比tsp的数量要大得多,它们很少考虑生成相对准确的tsp持续时间。此外,通过改变tsp来优化交通流量,可能会导致一些车辆在未选择的信号阶段无限等待。而且,这些drl方法很少被部署在真正的tsc系统上。

4、根据最近的研究[https://arxiv.org/abs/2112.02336;https://arxiv.org/abs/2211.01025],tsp持续时间与tsc的信号相位变化是同等重要的。因此,设计一种生成实时交通信号相位持续时间的方法至关重要。有人提出了一些解决tsp持续时间的方案[https://ieeexplore.ieee.org/document/8600382;https://dl.acm.org/doi/abs/10.1016/j.sysarc.2021.102374https://arxiv.org/abs/2211.01025]。不过,据我们所知,除了粗略估计一个值外,很少有研究能够产生一个具体且准确的tsp持续时间。例如,liang等人[https://ieeexplore.ieee.org/document/8600382]通过从每个周期中添加或减去5秒来改变相位持续时间。zhang等人[https://arxiv.org/abs/2211.01025]从一个预先设定的持续时间集里面选择tsp持续时间(例如持续时间集(秒)[10,15,25,30]),在现实世界里,这并不是准确的。因为预先设定的持续时间集主要依赖于专家的经验来进行手工的持续时间配置。ddpg(deep deterministic policy gradient,深度确定性策略梯度算法,https://dl.acm.org/doi/10.5555/3044805.3044850)是一种深度确定性的策略梯度算法,它是为了解决连续动作控制问题而提出的。ddpg使用actor-critic框架。actor-critic框架是基于动作价值函数q的框架,actor学习策略函数π,critic学习动作价值函数q。

5、目前的方法一般有以下几个重大缺点:

6、·大多数现有的drl方法侧重于选择一个适当的tsp,忽略了生成tsp持续时间,而生成tsp持续时间已被证明是与一个适当的tsp同等重要的。

7、·需要精确性和适应性更强的tsp持续时间生成技术。需要精确测量tsp持续时间,而不是一个近似的整数值。

8、·任意改变信号相位并不符合驾驶习惯,甚至可能导致一些司机无限期地等待。


技术实现思路

1、根据本申请的实施例,提供了基于ddpg的directlight模型,用于根据道路交叉口实时、动态的交通状态生成准确、灵活的tsp持续时间,实现了目前已知最好的交通信号控制效果(sota)。根据本申请的实施例,还提出了不改变tsp顺序而对固定顺序的循环tsp动态生成其tsp持续时间的方案,以适应驾驶员的驾驶习惯,这样的方案更容易部署在现实世界的tsc系统中。根据本申请的又一些实施例,既产生tsp也产生tsp持续时间,所产生的tsp不限于既有的固定顺序的tsp循环,以进一步提高交通信号控制效果。

2、根据本申请的第一方面,提供了道路交叉口交通信号控制方法,包括:响应于向所述道路交叉口施加了交通信号相位,获取所述道路交叉口的道路车辆状态;将所述道路车辆状态提供给direclight强化学习模型,获得所述direclight强化学习模型输出的交通信号相位持续时间参数,用所述direclight强化学习模型输出的交通信号相位持续时间参数与所述交通信号相位的参考持续时间相乘,得到估计的所述交通信号相位的交通信号相位持续时间;在时间经过了所述交通信号相位的交通信号相位持续时间后,更新施加给所述道路交叉口的交通信号相位;其中,所述direclight强化学习模型是基于ddpg的强化学习模型,包括actor网络μθ(s)、critic网络qω(s,a)、目标actor网络μθ-(s)与目标critic网络qω-(s,a);其中,actor网络的输出μθ(s),作为所述direclight强化学习模型的输出,s是提供给所述direclight强化学习模型的道路交叉口的道路车辆状态,根据指定交通信号相位所对应的车道内的车辆数量确定道路交叉口的道路车辆状态,a是交通信号相位持续时间参数;为训练所述direclight强化学习模型,获取多份训练数据,每份训练数据包括<si,ai,ri,s′i>,其中si代表训练数据i中的道路交叉口的道路车辆状态,ri代表训练数据i中的奖励,ai代表训练数据i中的持续时间参数,s′i代表训练样本i的更新后的道路交叉口的道路车辆状态;采样所述多份训练数据,根据

3、yi=ri+γqw-(si,μθ-(si))

4、

5、通过最小化lcritic来更新所述critic网络,其中i代表训练数据索引,n为训练数据数量,μθ-(si)代表所述目标actor网络,qw-(si,μθ-(si))代表所述目标critic网络的输出,γ代表学习率超参数,qw(si,ai)代表所述critic网络的输出,lcritic本文档来自技高网...

【技术保护点】

1.道路交叉口交通信号控制方法,包括:

2.根据权利要求1所述的道路交叉口交通信号控制方法,其中根据指定交通信号相位所对应的车道内的车辆数量确定道路交叉口的道路车辆状态,包括:

3.根据权利要求1或2所述的道路交叉口交通信号控制方法,其中根据指定交通信号相位所对应的车道内的车辆数量确定道路交叉口的道路车辆状态,包括:

4.根据权利要求1或2所述的道路交叉口交通信号控制方法,其中根据指定交通信号相位所对应的车道内的车辆数量确定道路交叉口的道路车辆状态,包括:

5.根据权利要求1-4之一所述的道路交叉口交通信号控制方法,其中,

6.根据权利要求1-5之一所述的道路交叉口交通信号控制方法,还包括:

7.根据权利要求1-6之一所述的道路交叉口交通信号控制方法,还包括:

8.根据权利要求1-7之一所述的道路交叉口交通信号控制方法,其中,

9.训练DirecLight强化学习模型的方法,其中,所述DirecLight强化学习模型是基于DDPG的强化学习模型,包括Actor网络μθ(s)、Critic网络Qω(s,a)、目标Actor网络与目标Critic网络

10.一种信息处理设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1-9之一所述的方法。

...

【技术特征摘要】

1.道路交叉口交通信号控制方法,包括:

2.根据权利要求1所述的道路交叉口交通信号控制方法,其中根据指定交通信号相位所对应的车道内的车辆数量确定道路交叉口的道路车辆状态,包括:

3.根据权利要求1或2所述的道路交叉口交通信号控制方法,其中根据指定交通信号相位所对应的车道内的车辆数量确定道路交叉口的道路车辆状态,包括:

4.根据权利要求1或2所述的道路交叉口交通信号控制方法,其中根据指定交通信号相位所对应的车道内的车辆数量确定道路交叉口的道路车辆状态,包括:

5.根据权利要求1-4之一所述的道路交叉口交通信号控制方法,其中,

6.根据权利要求1-5之...

【专利技术属性】
技术研发人员:武强
申请(专利权)人:北京小橙智算科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1