当前位置: 首页 > 专利查询>东南大学专利>正文

一种网联车探测状态感知的交叉口强化学习信号控制方法技术

技术编号:33126176 阅读:39 留言:0更新日期:2022-04-17 00:36
本发明专利技术公开了一种网联车探测状态感知的交叉口强化学习信号控制方法,在网联自动驾驶车辆具有一定市场渗透率的情况下,将交叉口进口道划分为一定数目的网格,以网联自动驾驶车辆作为移动传感器,探测周围车辆的实时位置、速度等数据,将数据填充到相应的进口道网格中,形成网格填充矩阵。将信号灯视作智能体并设计马尔可夫决策过程,以网格填充矩阵作为智能体状态,以相位切换为动作,以车辆更新等待时间为奖励函数。采用深度策略梯度算法训练智能体,可以减少车辆的等待时间,同时实现排队长度以及平均速度的优化。本发明专利技术提出的方法能够在对信号交通口进行控制时减少交通拥堵,缓解因交通拥堵带来的交通延误和碳排放及能源消耗。消耗。消耗。

【技术实现步骤摘要】
一种网联车探测状态感知的交叉口强化学习信号控制方法


[0001]本专利技术涉及一种网联车探测状态感知的交叉口强化学习信号控制方法,属于车路协同智能交通道路交叉口信号灯优化控制


技术介绍

[0002]交通拥堵会导致交通延误,产生额外的污染排放,构建智能交通管理系统可以有效避免城市交通拥堵。交通信号控制是交通管理系统的核心,可以在保证安全的前提下有效减少拥堵。现有的驱动信号控制、协同信号控制等方法可以用来解决交通拥堵问题,其中最有前景的是根据交通流量调整信号相位和间隔的自适应交通信号控制方法。基于自适应控制方法的交通信号控制系统是目前广泛应用的信号控制系统,相比于固定配时系统,自适应交通信号控制系统提高了交通灯的灵活性以及道路运行效率。但自适应信号控制系统难以应对大规模交通路网的交通信号协调控制,基于此,由深度学习与强化学习结合的深度强化学习被应用于交叉口车辆控制与信号控制。自适应交通信号控制主要使用的方法是模糊逻辑、群体智能算法和神经网络等智能算法。但随着人工智能技术的发展,强化学习展现了处理真实的自适应交通信号控制问题的巨大潜力。在强化学习中,经训练的智能体可以根据CAVs探测的状态选择动作,通过对交通信号的控制缓解交通拥堵。
[0003]此外,基于优先级信号的城市交叉口交通管理方案也被应用于减少拥挤和车辆平均等待时间。但是对于智能网联车辆而言,由于感知范围有限,交通效率的提升并不明显。同时,通过控制单个车辆来调节冲突运动从而改善交叉口性能的方法也诞生,通过控制单个车辆的速度、跟驰与换道行为来管理交通。
[0004]在自适应交通信号控制问题中,交通信号灯作为智能体,可以根据它观测到的道路状态做出行为决策。现有的表示道路状态的方法大致分为以下三种:从模拟器导出的快照、聚合的交通信息、离散交通状态编码。其中第一种需要使用从交通仿真系统中拍摄的交叉口照片,使用这些照片作为卷积神经网络的输入并提取车辆和道路特征,现实获取难度高。而第二种与第三种状态表征需要通过传感器、摄像头等设备来获取。安装道路监控设备成本高,且存在由于客观条件无法获取清晰的道路状态的可能,传统线圈和视频探测器设备在状态表征任务中功能不足。此外,传统交通传感器的安装和维护有时会对道路铺装产生破坏,甚至需要封锁车道,这些都会给城市交通管理带来不便。

技术实现思路

[0005]本专利技术所要解决的技术问题是:提供一种网联车探测状态感知的交叉口强化学习信号控制方法,利用联网车辆作为移动传感器,为交通信控智能体提供状态信息;以交通信号灯为智能体,采用策略梯度算法对交通信号灯智能体进行训练,优化交通信号控制。
[0006]本专利技术为解决上述技术问题采用以下技术方案:
[0007]一种网联车探测状态感知的交叉口强化学习信号控制方法,包括如下步骤:
[0008]步骤1,在网联自动驾驶车辆与非自动驾驶车辆共存的场景下,构建交通系统仿真
环境,在所述仿真环境中将所述网联自动驾驶车辆作为移动传感器,获取交通流状态信息;
[0009]步骤2,使用改进的离散交通流状态编码,将所述网联自动驾驶车辆获取的交通流状态信息转化为检测掩码矩阵、位置矩阵和速度矩阵;
[0010]步骤3,使用马尔可夫决策过程定义交通系统的智能体、状态变量、动作和目标;
[0011]步骤4,采用深度策略梯度算法训练智能体,将状态变量作为深度策略梯度算法种策略网络的输入,策略网络的输出为智能体选择各动作的概率,经过训练后的智能体即能够根据网联自动驾驶车辆获取的交通流状态信息选择相位切换动作。
[0012]作为本专利技术的一种优选方案,所述步骤2的具体过程如下:
[0013]令步骤1构建的交通系统仿真环境中各交叉口的编号为j,j=1,2,

,则交叉口j获取的交通流状态信息转化为检测掩码矩阵D
j
、位置矩阵P
j
和速度矩阵V
j

[0014]根据车辆平均长度,将交叉口各进口道上每个车道划分为若干个大小相同的道路单元,每个道路单元与检测掩码矩阵中的元素一一对应,每个道路单元与位置矩阵中的元素一一对应,每个道路单元与速度矩阵中的元素一一对应;
[0015]检测掩码矩阵中的元素值表征其所对应的道路单元是否能够被进口道上的网联自动驾驶车辆观测到,若能够被至少一辆网联自动驾驶车辆观测到,则该元素值为1,否则为0;
[0016]位置矩阵表征进口道上所有能够被网联自动驾驶车辆观测到的道路单元内是否有车,若某道路单元能够被网联自动驾驶车辆观测到,且该道路单元内有车,则该道路单元在位置矩阵中对应的元素值为1;若某道路单元能够被网联自动驾驶车辆观测到,且该道路单元内无车,则该道路单元在位置矩阵中对应的元素值为0;若某道路单元不能够被至少一辆网联自动驾驶车辆观测到,则该道路单元在位置矩阵中对应的元素值为0;
[0017]速度矩阵表征被网联自动驾驶车辆观测到的道路单元内车辆的位置及速度,若某道路单元能够被网联自动驾驶车辆观测到,且该道路单元内有车,则该道路单元在速度矩阵中对应的元素值为道路单元内车辆的速度;除此之外,速度矩阵中其他元素值均为0。
[0018]作为本专利技术的一种优选方案,所述步骤3的具体过程如下:
[0019]定义智能体为交通信号灯,状态变量由检测掩码矩阵、位置矩阵和速度矩阵构成,其中,检测掩码矩阵由网联自动驾驶车辆的位置与探测半径决定,位置矩阵和速度矩阵的确定基于网联自动驾驶车辆能够探测的范围以及网联自动驾驶车辆能够探测的范围内车辆的状态;
[0020]定义智能体的动作为信号相位是否变化,根据预先设定的相位情况,智能体的两种动作选择分别为:切换到下一相位,即a=1;保持当前相位,即a=0;智能体每次动作的时间间隔为15秒,相位总时长不得超过60秒;
[0021]定义智能体的目标为所有车辆等待时间之和最小,智能体根据即时的状态以所有车辆的等待时间之和为奖励函数选择自己的动作,其中,单车等待时间具体公式为:
[0022][0023]其中,W
i
(t)表示车辆i在时刻t的等待时间,单位秒;Δt表示步长间隔,单位秒;v
i
(t)表示车辆i在时刻t的速度,单位米每秒。
[0024]作为本专利技术的一种优选方案,步骤4所述策略网络包括依次连接的第一卷积层、第
一最大池化层、第二卷积层、第二最大池化层、第三卷积层、第三最大池化层、第一全连接层和第二全连接层;其中,第一、第二、第三卷积层的卷积核大小依次为3
×
3、5
×
5、3
×
3,通道数依次为32、128、512;第一、第二、第三最大池化层的采样核大小依次为2
×
2、2
×
2、3
×
3;第一、第二全连接层的单元数依次为512、256;所述策略网络的输入即第一卷积层的输入维数为m
×
n
×
3,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网联车探测状态感知的交叉口强化学习信号控制方法,其特征在于,包括如下步骤:步骤1,在网联自动驾驶车辆与非自动驾驶车辆共存的场景下,构建交通系统仿真环境,在所述仿真环境中将所述网联自动驾驶车辆作为移动传感器,获取交通流状态信息;步骤2,使用改进的离散交通流状态编码,将所述网联自动驾驶车辆获取的交通流状态信息转化为检测掩码矩阵、位置矩阵和速度矩阵;步骤3,使用马尔可夫决策过程定义交通系统的智能体、状态变量、动作和目标;步骤4,采用深度策略梯度算法训练智能体,将状态变量作为深度策略梯度算法种策略网络的输入,策略网络的输出为智能体选择各动作的概率,经过训练后的智能体即能够根据网联自动驾驶车辆获取的交通流状态信息选择相位切换动作。2.根据权利要求1所述的网联车探测状态感知的交叉口强化学习信号控制方法,其特征在于,所述步骤2的具体过程如下:令步骤1构建的交通系统仿真环境中各交叉口的编号为j,j=1,2,

,则交叉口j获取的交通流状态信息转化为检测掩码矩阵D
j
、位置矩阵P
j
和速度矩阵V
j
;根据车辆平均长度,将交叉口各进口道上每个车道划分为若干个大小相同的道路单元,每个道路单元与检测掩码矩阵中的元素一一对应,每个道路单元与位置矩阵中的元素一一对应,每个道路单元与速度矩阵中的元素一一对应;检测掩码矩阵中的元素值表征其所对应的道路单元是否能够被进口道上的网联自动驾驶车辆观测到,若能够被至少一辆网联自动驾驶车辆观测到,则该元素值为1,否则为0;位置矩阵表征进口道上所有能够被网联自动驾驶车辆观测到的道路单元内是否有车,若某道路单元能够被网联自动驾驶车辆观测到,且该道路单元内有车,则该道路单元在位置矩阵中对应的元素值为1;若某道路单元能够被网联自动驾驶车辆观测到,且该道路单元内无车,则该道路单元在位置矩阵中对应的元素值为0;若某道路单元不能够被至少一辆网联自动驾驶车辆观测到,则该道路单元在位置矩阵中对应的元素值为0;速度矩阵表征被网联自动驾驶车辆观测到的道路单元内车辆的位置及速度,若某道路单元能够被网联自动驾驶车辆观测到,且该道路单元内有车,则该道路单元在速度矩阵中对应的元素值为道路单元内车辆的速度;除此之外,速度矩阵中其他元素值均为0。3.根据权利要求1所述的网联车探测状态感知的交叉口强化学习信号控制方法,其特征在于,所述步骤3的具体过程如下:定义智能体为交通信号灯,状态变量由检测掩码矩阵、位置矩阵和速度矩阵构成,其中,检测掩码矩阵由网联自动驾驶车辆的位置与探测半径决定,位置矩阵和速度矩阵的确定基于网联自动驾驶车辆能够探测的范围以及网联自动驾驶车辆能够探测的范围内车辆的状态;定义智能体的动作为信号相位是否变化,根据预先设定的相位情况,智能体的两种动作选择分别为:切换到下一相位,即a=1;保持当前相位,即a=0;智能体每次动作的时间间隔为1...

【专利技术属性】
技术研发人员:张健王涵王博姜夏史晓宇熊壮
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1