当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于深度强化学习的多交叉口信号灯协同控制方法技术

技术编号:21716825 阅读:59 留言:0更新日期:2019-07-27 20:14
本发明专利技术涉及一种基于深度强化学习的多交叉口信号灯协同控制方法,其包括以下步骤:1)根据多交叉口交通网络的实际情况,建立能够反映该交通网络原始交通状态的多通道张量;2)根据得到的多交叉口交通网络的多通道张量,建立多交叉口协同控制神经网络模型;3)采用模仿学习和强化学习相结合的方法,对建立的多交叉口协同控制神经网络模型进行训练,得到训练好的多交叉口协同控制神经网络模型;4)将当前多交叉口的相位信息输入训练好的多交叉口协同控制神经网络模型,得到当前多交叉口信号灯的协同控制输出结果。本发明专利技术可以广泛应用于多交叉口信号灯协同控制领域。

A Cooperative Control Method of Multi-intersection Signal Lamps Based on Deep Reinforcement Learning

【技术实现步骤摘要】
一种基于深度强化学习的多交叉口信号灯协同控制方法
本专利技术涉及交通路网中多交叉口信号灯协同控制
,特别是关于一种基于深度强化学习的多交叉口信号灯协同控制方法,采用模仿学习与深度强化学习对交通路网中多交叉口场景进行建模,形成新的多交叉口信号灯协同控制方案。
技术介绍
交叉口作为城市交通网络的枢纽和关键结点,对交通网络的运行效率有着举足轻重的影响。所以对交叉口信号灯的相位时长进行优化可以在很大程度上提高现有城市交通网络的运行效率。而随着云计算以及5G等智能交通相关技术的不断发展,通过中央控制系统对交通网络进行实时控制已经变得越来越可行了。车辆对车辆(V2V)和车辆对基础设施(V2I)通信为十字路口的交通信号控制提供了新的机会。通过V2I和V2V通信,交通信号控制器可以实时获取接近车辆的更精确的位置和运动信息,为更有效的交通信号控制提供基础。深度强化学习是近年来兴起的一种人工智能算法,这种方法的特点是可以通过实时和所在环境交互,通过摸索与试错的方法找到一种合理的策略,在特定情况下可以达到甚至超越人类的水平。基于此,利用深度强化学习对多交叉口组成的交通网络进行建模并优化分析是一件很有经济价值和理论价值的事情。相关的研究成果主要分为以下几类:1、基于DQN(深度Q网络)的方法。这种结构会将输入状态转化为不同动作的价值,每一次决策都只使用价值最大的动作。但是这种输出方式导致基于DQN的模型只能处理单交叉口问题,无法拓展到多交叉口问题中。一些研究者们提出将每一个DQN模型看做一个智能体,然后利用多个智能体来同时控制多个交叉口,与此同时通过智能体间共享奖励函数的方式来实现协同。但是此类方法会增加模型的整体复杂度和训练难度,而且由于需要在局部与整体之间平衡,这类模型也容易陷入局部最优。2、基于Actor-Critic(执行器-判别器)的方法。这种方法的特点是将交叉口周围的交通状态转化为图像或者元胞,然后利用深度神经网络来自动进行特征提取,网络的输出为执行其中每一个相位的价值或者概率,通过选取价值最大的相位或者按照概率来选择相位的方式来进行信号灯控制,并通过策略梯度方法进行模型优化。这种方法的特点是信息完备,不会造成信息的丢失,但是由于强化学习的训练效率较低,深度神经网络本身也会会消耗更大的计算资源,所以效率低下。
技术实现思路
针对上述问题,本专利技术的目的是提供一种基于深度强化学习的多交叉口信号灯协同控制方法,通过对多交叉口信号灯进行协同控制,有效提高交通网络的运行效率。为实现上述目的,本专利技术采取以下技术方案:一种基于深度强化学习的多交叉口信号灯协同控制方法,其包括以下步骤:1)根据待协同控制的多交叉口交通网络的实际情况,建立能够反映该交通网络原始交通状态的多通道张量;2)根据得到的多交叉口交通网络的多通道张量,建立多交叉口协同控制神经网络模型,该模型以多交叉口交通网络中每个交叉口信号灯的相位信息作为输入,以一组多维动作作为输出;3)采用模仿学习和强化学习相结合的方法,对建立的多交叉口协同控制神经网络模型进行训练,得到最优多交叉口协同控制神经网络模型;4)将当前多交叉口的相位信息输入最优多交叉口协同控制神经网络模型,得到当前多交叉口信号灯的协同控制输出结果。进一步的,所述步骤1)中,根据待协同控制的多交叉口交通网络的实际情况,建立能够反映该交通网络原始交通状态的多通道张量的方法,包括以下步骤:1.1)按照预设规则将与多交叉口交通网络内其中一个交叉口相连的各个方向的车道进行拼接,得到该交叉口的车道图像信息;1.2)对得到的交叉口的车道图像信息进行处理,得到能够反映该交叉口原始交通状态的车道矩阵信息;1.3)重复步骤1.1)~1.2),获得多交叉口交通网络各个交叉口的车道矩阵信息;1.4)将得到的各个交叉口的车道矩阵信息进行叠加,得到多交叉口交通网络的多通道张量。进一步的,所述步骤2)中,建立的多交叉口协同控制神经网络模型包括第一、第二两个卷积层、第一、第二两个池化层、合并层以及一个全连接层;所述第一卷积层用于对输入的多交叉口交通网络进行局部特征提取,得到的结果发送到所述第一池化层;所述第一池化层用于对输入的数据进行降维和去噪处理后,得到的结果发送到所述第二卷积层;所述第二卷积层用于对输入的数据进行全局信息提取,得到的结果发送到所述第二池化层;所述第二池化层用于对输入的数据进行降维和去噪处理并发送到合并层;所述合并层将得到的数据以及多交叉口交通网络中各个交叉口的相位信息进行合并后,发送到所述全连接层;所述全连接层根据输入的数据得到用于控制各个交叉口的交通信号灯的一组多维动作以及用于表示当前时刻多交叉口交通状态的价值。进一步的,所述步骤3)中,采用模仿学习和强化学习相结合的方法,对建立的多交叉口协同控制神经网络模型进行训练,得到最优多交叉口协同控制神经网络模型的方法,包括以下步骤:3.1)采用模仿学习方法对建立的多交叉口协同控制神经网络模型进行训练,得到初步优化后的多交叉口协同控制神经网络;3.2)采用强化学习方法对步骤3.1)得到的模型继续训练,直到模型精度达到预设阈值,得到最优多交叉口协同控制神经网络模型。进一步的,所述步骤3.1)中,采用模仿学习方法对建立的多交叉口协同控制神经网络模型进行训练,得到初步优化后的多交叉口协同控制神经网络模型的方法,包括以下步骤:3.1.1)初始化交通状态、轨迹池以及模仿学习的仿真次数,其中,轨迹池用于存储模型的决策轨迹数据;3.1.2)每隔预设时间在轨迹池中随机采集若干个样本作为训练样本;3.1.3)利用基于规则的模型对训练样本进行标注,得到的标注数据作为训练标签数据;3.1.4)将能够反映该多交叉口交通网络原始交通状态的多通道张量输入神经网络模型得到其输出值,根据输出值与训练标签数据,计算得到损失函数,并通过最小化损失函数来对模型进行训练。进一步的,所述步骤3.1.3)中,对训练样本进行标注的公式为:其中,yi表示第i个维度的数据标签,表示第i个交叉口当前绿灯相位所对应车道内的低速车辆的数量,表示其余三个红灯相位所对应车道的低速车辆的数量,β取0.13。进一步的,所述步骤3.1.4)中,损失函数的计算公式为:ei=yiln(pi)+(1-yi)ln(1-pi),式中,yi表示第i个维度的标签,pi表示模型在第i个维度的输出,ei表示第i个维度的模型与标签之间的交叉熵,c表示引入的L2正规化惩罚项系数,且c=10-4,θ表示神经网络的参数。进一步的,所述步骤3.2)中,采用强化学习方法对步骤3.1)得到的模型继续训练,直到模型精度达到预设阈值,得到最优多交叉口协同控制神经网络模型的方法,包括以下步骤:3.2.1)以步骤3.1)得到的模型为基础,建立一个基于随机参数θ的结构完全相同的新策略网络π′和旧策略网络π,参数θ代表神经网络模型中的所有参数;3.2.2)初始化强化学习的仿真次数Nrl;3.2.3)以旧策略网络π为控制策略对任一交叉口选取一个随机动作执行该随机动作并观测环境反馈的状态,即下一时刻的交通状态st+1以及其奖励值Rt;3.2.4)根据得到的旧策略网络π的下一时刻的交通状态st+1以及其奖励值Rt,采用PPO算法构建目标函数,并通过调整新策略网络π′来最大化目标函本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的多交叉口信号灯协同控制方法,其特征在于包括以下步骤:1)根据待协同控制的多交叉口交通网络的实际情况,建立能够反映该交通网络原始交通状态的多通道张量;2)根据得到的多交叉口交通网络的多通道张量,建立多交叉口协同控制神经网络模型,该模型以多交叉口交通网络中每个交叉口信号灯的相位信息作为输入,以一组多维动作作为输出;3)采用模仿学习和强化学习相结合的方法,对建立的多交叉口协同控制神经网络模型进行训练,得到最优多交叉口协同控制神经网络模型;4)将当前多交叉口的相位信息输入最优多交叉口协同控制神经网络模型,得到当前多交叉口信号灯的协同控制输出结果。

【技术特征摘要】
1.一种基于深度强化学习的多交叉口信号灯协同控制方法,其特征在于包括以下步骤:1)根据待协同控制的多交叉口交通网络的实际情况,建立能够反映该交通网络原始交通状态的多通道张量;2)根据得到的多交叉口交通网络的多通道张量,建立多交叉口协同控制神经网络模型,该模型以多交叉口交通网络中每个交叉口信号灯的相位信息作为输入,以一组多维动作作为输出;3)采用模仿学习和强化学习相结合的方法,对建立的多交叉口协同控制神经网络模型进行训练,得到最优多交叉口协同控制神经网络模型;4)将当前多交叉口的相位信息输入最优多交叉口协同控制神经网络模型,得到当前多交叉口信号灯的协同控制输出结果。2.如权利要求1所述的一种基于深度强化学习的多交叉口信号灯协同控制方法,其特征在于:所述步骤1)中,根据待协同控制的多交叉口交通网络的实际情况,建立能够反映该交通网络原始交通状态的多通道张量的方法,包括以下步骤:1.1)按照预设规则将与多交叉口交通网络内其中一个交叉口相连的各个方向的车道进行拼接,得到该交叉口的车道图像信息;1.2)对得到的交叉口的车道图像信息进行处理,得到能够反映该交叉口原始交通状态的车道矩阵信息;1.3)重复步骤1.1)~1.2),获得多交叉口交通网络各个交叉口的车道矩阵信息;1.4)将得到的各个交叉口的车道矩阵信息进行叠加,得到多交叉口交通网络的多通道张量。3.如权利要求1所述的一种基于深度强化学习的多交叉口信号灯协同控制方法,其特征在于:所述步骤2)中,建立的多交叉口协同控制神经网络模型包括第一、第二两个卷积层、第一、第二两个池化层、合并层以及一个全连接层;所述第一卷积层用于对输入的多交叉口交通网络进行局部特征提取,得到的结果发送到所述第一池化层;所述第一池化层用于对输入的数据进行降维和去噪处理后,得到的结果发送到所述第二卷积层;所述第二卷积层用于对输入的数据进行全局信息提取,得到的结果发送到所述第二池化层;所述第二池化层用于对输入的数据进行降维和去噪处理并发送到合并层;所述合并层将得到的数据以及多交叉口交通网络中各个交叉口的相位信息进行合并后,发送到所述全连接层;所述全连接层根据输入的数据得到用于控制各个交叉口的交通信号灯的一组多维动作以及用于表示当前时刻多交叉口交通状态的价值。4.如权利要求1所述的一种基于深度强化学习的多交叉口信号灯协同控制方法,其特征在于:所述步骤3)中,采用模仿学习和强化学习相结合的方法,对建立的多交叉口协同控制神经网络模型进行训练,得到最优多交叉口协同控制神经网络模型的方法,包括以下步骤:3.1)采用模仿学习方法对建立的多交叉口协同控制神经网络模型进行训练,得到初步优化后的多交叉口协同控制神经网络;3.2)采用强化学习方法对步骤3.1)得到的模型继续训练,直到模型精度达到预设阈值,得到最优多交叉口协同控制神经网络模型。5.如权利要求4所述的一种基于深度强化学习的多交叉口信号灯协同控制方法,其特征在于:所述步骤3.1)中,采用模仿学习方法对建立的多交叉口协同控制神经网络...

【专利技术属性】
技术研发人员:胡坚明霍雨森裴欣张佐姚丹亚
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1