一种基于深度强化学习的多交叉口信号灯协同控制方法技术

技术编号：21716825 阅读：59 留言：0更新日期：2019-07-27 20:14

本发明专利技术涉及一种基于深度强化学习的多交叉口信号灯协同控制方法，其包括以下步骤：1)根据多交叉口交通网络的实际情况，建立能够反映该交通网络原始交通状态的多通道张量；2)根据得到的多交叉口交通网络的多通道张量，建立多交叉口协同控制神经网络模型；3)采用模仿学习和强化学习相结合的方法，对建立的多交叉口协同控制神经网络模型进行训练，得到训练好的多交叉口协同控制神经网络模型；4)将当前多交叉口的相位信息输入训练好的多交叉口协同控制神经网络模型，得到当前多交叉口信号灯的协同控制输出结果。本发明专利技术可以广泛应用于多交叉口信号灯协同控制领域。

A Cooperative Control Method of Multi-intersection Signal Lamps Based on Deep Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的多交叉口信号灯协同控制方法
本专利技术涉及交通路网中多交叉口信号灯协同控制
，特别是关于一种基于深度强化学习的多交叉口信号灯协同控制方法，采用模仿学习与深度强化学习对交通路网中多交叉口场景进行建模，形成新的多交叉口信号灯协同控制方案。
技术介绍
交叉口作为城市交通网络的枢纽和关键结点，对交通网络的运行效率有着举足轻重的影响。所以对交叉口信号灯的相位时长进行优化可以在很大程度上提高现有城市交通网络的运行效率。而随着云计算以及5G等智能交通相关技术的不断发展，通过中央控制系统对交通网络进行实时控制已经变得越来越可行了。车辆对车辆(V2V)和车辆对基础设施(V2I)通信为十字路口的交通信号控制提供了新的机会。通过V2I和V2V通信，交通信号控制器可以实时获取接近车辆的更精确的位置和运动信息，为更有效的交通信号控制提供基础。深度强化学习是近年来兴起的一种人工智能算法，这种方法的特点是可以通过实时和所在环境交互，通过摸索与试错的方法找到一种合理的策略，在特定情况下可以达到甚至超越人类的水平。基于此，利用深度强化学习对多交叉口组成的交通网络进行建模并优化分析是一件很有经济价值和理论价值的事情。相关的研究成果主要分为以下几类：1、基于DQN(深度Q网络)的方法。这种结构会将输入状态转化为不同动作的价值，每一次决策都只使用价值最大的动作。但是这种输出方式导致基于DQN的模型只能处理单交叉口问题，无法拓展到多交叉口问题中。一些研究者们提出将每一个DQN模型看做一个智能体，然后利用多个智能体来同时控制多个交叉口，与此同时通过智能体间共享奖励函数的方...

【技术保护点】
1.一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于包括以下步骤：1)根据待协同控制的多交叉口交通网络的实际情况，建立能够反映该交通网络原始交通状态的多通道张量；2)根据得到的多交叉口交通网络的多通道张量，建立多交叉口协同控制神经网络模型，该模型以多交叉口交通网络中每个交叉口信号灯的相位信息作为输入，以一组多维动作作为输出；3)采用模仿学习和强化学习相结合的方法，对建立的多交叉口协同控制神经网络模型进行训练，得到最优多交叉口协同控制神经网络模型；4)将当前多交叉口的相位信息输入最优多交叉口协同控制神经网络模型，得到当前多交叉口信号灯的协同控制输出结果。

【技术特征摘要】
1.一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于包括以下步骤：1)根据待协同控制的多交叉口交通网络的实际情况，建立能够反映该交通网络原始交通状态的多通道张量；2)根据得到的多交叉口交通网络的多通道张量，建立多交叉口协同控制神经网络模型，该模型以多交叉口交通网络中每个交叉口信号灯的相位信息作为输入，以一组多维动作作为输出；3)采用模仿学习和强化学习相结合的方法，对建立的多交叉口协同控制神经网络模型进行训练，得到最优多交叉口协同控制神经网络模型；4)将当前多交叉口的相位信息输入最优多交叉口协同控制神经网络模型，得到当前多交叉口信号灯的协同控制输出结果。2.如权利要求1所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤1)中，根据待协同控制的多交叉口交通网络的实际情况，建立能够反映该交通网络原始交通状态的多通道张量的方法，包括以下步骤：1.1)按照预设规则将与多交叉口交通网络内其中一个交叉口相连的各个方向的车道进行拼接，得到该交叉口的车道图像信息；1.2)对得到的交叉口的车道图像信息进行处理，得到能够反映该交叉口原始交通状态的车道矩阵信息；1.3)重复步骤1.1)～1.2)，获得多交叉口交通网络各个交叉口的车道矩阵信息；1.4)将得到的各个交叉口的车道矩阵信息进行叠加，得到多交叉口交通网络的多通道张量。3.如权利要求1所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤2)中，建立的多交叉口协同控制神经网络模型包括第一、第二两个卷积层、第一、第二两个池化层、合并层以及一个全连接层；所述第一卷积层用于对输入的多交叉口交通网络进行局部特征提取，得到的结果发送到所述第一池化层；所述第一池化层用于对输入的数据进行降维和去噪处理后，得到的结果发送到所述第二卷积层；所述第二卷积层用于对输入的数据进行全局信息提取，得到的结果发送到所述第二池化层；所述第二池化层用于对输入的数据进行降维和去噪处理并发送到合并层；所述合并层将得到的数据以及多交叉口交通网络中各个交叉口的相位信息进行合并后，发送到所述全连接层；所述全连接层根据输入的数据得到用于控制各个交叉口的交通信号灯的一组多维动作以及用于表示当前时刻多交叉口交通状态的价值。4.如权利要求1所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤3)中，采用模仿学习和强化学习相结合的方法，对建立的多交叉口协同控制神经网络模型进行训练，得到最优多交叉口协同控制神经网络模型的方法，包括以下步骤：3.1)采用模仿学习方法对建立的多交叉口协同控制神经网络模型进行训练，得到初步优化后的多交叉口协同控制神经网络；3.2)采用强化学习方法对步骤3.1)得到的模型继续训练，直到模型精度达到预设阈值，得到最优多交叉口协同控制神经网络模型。5.如权利要求4所述的一种基于深度强化学习的多交叉口信号灯协同控制方法，其特征在于：所述步骤3.1)中，采用模仿学习方法对建立的多交叉口协同控制神经网络...

【专利技术属性】
技术研发人员：胡坚明，霍雨森，裴欣，张佐，姚丹亚，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人