交通信号灯的控制方法、装置及计算机可读存储介质制造方法及图纸

技术编号:26068828 阅读:41 留言:0更新日期:2020-10-28 16:42
本公开提供了一种交通信号灯的控制方法、装置及计算机可读存储介质,涉及自动控制技术领域。其中的控制方法包括:采集路口的交通状态信息;利用行动者Actor网络对交通状态信息进行处理,得到路口的交通信号灯的控制动作;其中,Actor网络是利用行动者‑评论家Actor‑Critic算法训练得到的,控制动作包括保持或切换交通信号灯的状态;根据控制动作控制交通信号灯的状态。本公开能够根据路口的实际路况对交通信号灯进行实时控制,实现了对交通信号灯的动态配时,能够有效缓解路口的交通拥堵情况。

【技术实现步骤摘要】
交通信号灯的控制方法、装置及计算机可读存储介质
本公开涉及自动控制
,特别涉及一种交通信号灯的控制方法、装置及计算机可读存储介质。
技术介绍
传统的交通信号灯所采用的控制方式通常为定时控制。所谓定时控制,是指固定交通信号灯在路口各个方向上的绿灯时长及红灯时长。定时控制具体可分为单时段控制和多时段控制。在单时段控制方式下,交通信号灯在路口各个方向上的绿灯信号所占时间的比例是固定的。在多时段控制方式下,对于相同的时段而言,交通信号灯在路口各个方向上的绿灯信号所占时间的比例是相同的;对于不同的时段,交通信号灯在路口各个方向上的绿灯信号所占时间的比例是不同的。多时段控制方式可以在一定程度上缓解高峰时期路口的交通拥堵情况。
技术实现思路
专利技术人研究发现,传统的交通信号灯只能根据预设的策略对交通信号灯的状态进行控制,没有考虑交通路况随机性的特点,不能根据实际路况对交通信号灯的状态控制进行实时调整。因此,传统的交通信号灯难以适应交通流量波动的情况,会导致相对严重的交通拥堵。本公开解决的一个技术问题是,如何实现对交通信号灯的动态配时,从而有效缓解路口的交通拥堵情况。根据本公开实施例的一个方面,提供了一种交通信号灯的控制方法,包括:采集路口的交通状态信息;利用行动者Actor网络对交通状态信息进行处理,得到路口的交通信号灯的控制动作;其中,Actor网络是利用行动者-评论家Actor-Critic算法训练得到的,控制动作包括保持或切换交通信号灯的状态;根据控制动作控制交通信号灯的状态。在一些实施例中,还包括:检测交通信号灯保持当前状态的时长;在交通信号灯保持当前状态的时长未超过预设最小时长的情况下,保持交通信号灯的当前状态;在交通信号灯保持当前状态的时长超过预设最小时长且未超过预设最大时长的情况下,重新执行权利要求1中的步骤;在交通信号灯保持当前状态的时长超过预设最大时长的情况下,切换交通信号灯的状态。在一些实施例中,切换交通信号灯的状态包括:按照预设的状态切换顺序,将交通信号灯从当前状态切换至下一状态。在一些实施例中,交通状态信息包括:交通信号灯的状态、交通信号灯保持当前状态的时长以及路口在各个方向上的最大排队长度。在一些实施例中,还包括:初始化Actor网络的网络参数;利用Actor网络对上一周期的样本交通状态信息进行处理,得到交通信号灯基于上一周期的控制动作;根据交通信号灯基于上一周期的控制动作,确定交通信号灯在下一周期的状态;根据上一周期路口的最大排队长度及下一周期路口的最大排队长度,确定交通信号灯基于上一周期的控制动作的贡献值;利用Critic网络对上一周期的样本交通状态信息进行处理,并根据处理结果及贡献值更新Actor网络的网络参数。在一些实施例中,Actor网络与Critic网络共享部分全连接层。在一些实施例中,利用Critic网络对上一周期的样本交通状态信息进行处理,并根据处理结果及贡献值更新Actor网络的网络参数包括:在Critic网络资源池中选择业务负载最小的处理器及相应的Critic网络;将上一周期的样本交通状态信息发送至业务负载最小的处理器及相应的Critic网络,以便对上一周期的样本交通状态信息进行处理,并根据处理结果及贡献值异步更新Actor网络的网络参数。根据本公开实施例的另一个方面,提供了一种交通信号灯的控制装置,包括:信息采集模块,被配置为采集路口的交通状态信息;信息处理模块,被配置为利用Actor网络对交通状态信息进行处理,得到路口的交通信号灯的控制动作;其中,Actor网络是利用Actor-Critic算法训练得到的,控制动作包括保持或切换交通信号灯的状态;状态控制模块,被配置为根据控制动作控制交通信号灯的状态。根据本公开实施例的又一个方面,提供了另一种交通信号灯的控制装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述的交通信号灯的控制方法。根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现前述的交通信号灯的控制方法。本公开能够根据路口的交通状态信息对交通信号灯进行实时控制,实现了对交通信号灯的动态配时,能够有效缓解路口的交通拥堵情况。通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。附图说明为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示出了对智能体中的Actor网络进行训练的原理示意图。图2示出了交通信号灯的状态切换顺序。图3示出了智能体与路口环境的交互流程示意图。图4示出了本公开交通信号灯的控制方法的一些实施的流程示意图。图5示出了本公开交通信号灯的控制方法的另一些实施例的流程示意图。图6示出了本公开交通信号灯的控制装置的一些实施例的结构示意图。图7示出了本公开交通信号灯的控制装置的另一些实施例的结构示意图。具体实施方式下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。本公开以强化学习中的策略梯度理论为基础。强化学习算法以最大化累积奖赏为目标,在与环境的不断交互迭代过程中调整智能体(具体为深度学习神经网络)的参数,最终得出最优的策略。具体应用至交通信号灯的场景时,行动者-评论家AdvantageActor-Critic算法(强化学习算法中的一种)以最大化某时段路口累积等待时间或通行效率为目标,在交通信号灯切换或保持当前状态的过程中调整Actor网络的参数,最终得出交通信号灯的动态配时方案。强化学习算法求解问题的过程通常可采用基于值(Value-based)的方法和基于策略(Policy-based)的方法。前者更适用于状态空间较小或离散型控制动作的问题,后者使用于较复杂的连续或离散控制问题。本公开采用基于策略的方法求解信号灯配时控制问题。下面结合图1介绍如何对智能体中的Actor网络进行训练。图1示出了对智能体中的Actor网络进行训练的原理示意图,主要包括路口环境和智能体两部分。训练时,路口环境将样本交通状态信息输入至智能体,该样本交通状态信息可以包括交通信号灯的状态、交通信号灯保持当前状态的时长以及路口在各个方向上的最大排队长度。以十字路口为例,交通信号灯的状态可以包括东西向直行、东本文档来自技高网...

【技术保护点】
1.一种交通信号灯的控制方法,包括:/n采集路口的交通状态信息;/n利用行动者Actor网络对所述交通状态信息进行处理,得到所述路口的交通信号灯的控制动作;其中,所述Actor网络是利用行动者-评论家Actor-Critic算法训练得到的,所述控制动作包括保持或切换所述交通信号灯的状态;/n根据所述控制动作控制所述交通信号灯的状态。/n

【技术特征摘要】
1.一种交通信号灯的控制方法,包括:
采集路口的交通状态信息;
利用行动者Actor网络对所述交通状态信息进行处理,得到所述路口的交通信号灯的控制动作;其中,所述Actor网络是利用行动者-评论家Actor-Critic算法训练得到的,所述控制动作包括保持或切换所述交通信号灯的状态;
根据所述控制动作控制所述交通信号灯的状态。


2.如权利要求1所述的控制方法,还包括:
检测所述交通信号灯保持当前状态的时长;
在所述交通信号灯保持当前状态的时长未超过预设最小时长的情况下,保持所述交通信号灯的当前状态;
在所述交通信号灯保持当前状态的时长超过预设最小时长且未超过预设最大时长的情况下,重新执行权利要求1中的步骤;
在所述交通信号灯保持当前状态的时长超过预设最大时长的情况下,切换所述交通信号灯的状态。


3.如权利要求1或2所述的控制方法,其中,所述切换所述交通信号灯的状态包括:
按照预设的状态切换顺序,将所述交通信号灯从当前状态切换至下一状态。


4.如权利要求1所述的控制方法,其中,所述交通状态信息包括:所述交通信号灯的状态、所述交通信号灯保持当前状态的时长以及所述路口在各个方向上的最大排队长度。


5.如权利要求1所述的控制方法,还包括:
初始化Actor网络的网络参数;
利用Actor网络对上一周期的样本交通状态信息进行处理,得到所述交通信号灯基于上一周期的状态的控制动作;
根据所述交通信号灯基于上一周期的控制动作,确定所述交通信号灯在下一周期的状态;
根据上一周期所述路口的最大排队长度及下一周期所述路口的最大排队长度,确定所述交通信号灯基于上一周期的控...

【专利技术属性】
技术研发人员:廖勇刘庆敏刘保鹏王远张博
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1