【技术实现步骤摘要】
一种网联车探测状态感知的交叉口强化学习信号控制方法
[0001]本专利技术涉及一种网联车探测状态感知的交叉口强化学习信号控制方法,属于车路协同智能交通道路交叉口信号灯优化控制
技术介绍
[0002]交通拥堵会导致交通延误,产生额外的污染排放,构建智能交通管理系统可以有效避免城市交通拥堵。交通信号控制是交通管理系统的核心,可以在保证安全的前提下有效减少拥堵。现有的驱动信号控制、协同信号控制等方法可以用来解决交通拥堵问题,其中最有前景的是根据交通流量调整信号相位和间隔的自适应交通信号控制方法。基于自适应控制方法的交通信号控制系统是目前广泛应用的信号控制系统,相比于固定配时系统,自适应交通信号控制系统提高了交通灯的灵活性以及道路运行效率。但自适应信号控制系统难以应对大规模交通路网的交通信号协调控制,基于此,由深度学习与强化学习结合的深度强化学习被应用于交叉口车辆控制与信号控制。自适应交通信号控制主要使用的方法是模糊逻辑、群体智能算法和神经网络等智能算法。但随着人工智能技术的发展,强化学习展现了处理真实的自适应交通信号控制问题的巨大潜力。在强化学习中,经训练的智能体可以根据CAVs探测的状态选择动作,通过对交通信号的控制缓解交通拥堵。
[0003]此外,基于优先级信号的城市交叉口交通管理方案也被应用于减少拥挤和车辆平均等待时间。但是对于智能网联车辆而言,由于感知范围有限,交通效率的提升并不明显。同时,通过控制单个车辆来调节冲突运动从而改善交叉口性能的方法也诞生,通过控制单个车辆的速度、跟驰与换道行为来管理交 ...
【技术保护点】
【技术特征摘要】
1.一种网联车探测状态感知的交叉口强化学习信号控制方法,其特征在于,包括如下步骤:步骤1,在网联自动驾驶车辆与非自动驾驶车辆共存的场景下,构建交通系统仿真环境,在所述仿真环境中将所述网联自动驾驶车辆作为移动传感器,获取交通流状态信息;步骤2,使用改进的离散交通流状态编码,将所述网联自动驾驶车辆获取的交通流状态信息转化为检测掩码矩阵、位置矩阵和速度矩阵;步骤3,使用马尔可夫决策过程定义交通系统的智能体、状态变量、动作和目标;步骤4,采用深度策略梯度算法训练智能体,将状态变量作为深度策略梯度算法种策略网络的输入,策略网络的输出为智能体选择各动作的概率,经过训练后的智能体即能够根据网联自动驾驶车辆获取的交通流状态信息选择相位切换动作。2.根据权利要求1所述的网联车探测状态感知的交叉口强化学习信号控制方法,其特征在于,所述步骤2的具体过程如下:令步骤1构建的交通系统仿真环境中各交叉口的编号为j,j=1,2,
…
,则交叉口j获取的交通流状态信息转化为检测掩码矩阵D
j
、位置矩阵P
j
和速度矩阵V
j
;根据车辆平均长度,将交叉口各进口道上每个车道划分为若干个大小相同的道路单元,每个道路单元与检测掩码矩阵中的元素一一对应,每个道路单元与位置矩阵中的元素一一对应,每个道路单元与速度矩阵中的元素一一对应;检测掩码矩阵中的元素值表征其所对应的道路单元是否能够被进口道上的网联自动驾驶车辆观测到,若能够被至少一辆网联自动驾驶车辆观测到,则该元素值为1,否则为0;位置矩阵表征进口道上所有能够被网联自动驾驶车辆观测到的道路单元内是否有车,若某道路单元能够被网联自动驾驶车辆观测到,且该道路单元内有车,则该道路单元在位置矩阵中对应的元素值为1;若某道路单元能够被网联自动驾驶车辆观测到,且该道路单元内无车,则该道路单元在位置矩阵中对应的元素值为0;若某道路单元不能够被至少一辆网联自动驾驶车辆观测到,则该道路单元在位置矩阵中对应的元素值为0;速度矩阵表征被网联自动驾驶车辆观测到的道路单元内车辆的位置及速度,若某道路单元能够被网联自动驾驶车辆观测到,且该道路单元内有车,则该道路单元在速度矩阵中对应的元素值为道路单元内车辆的速度;除此之外,速度矩阵中其他元素值均为0。3.根据权利要求1所述的网联车探测状态感知的交叉口强化学习信号控制方法,其特征在于,所述步骤3的具体过程如下:定义智能体为交通信号灯,状态变量由检测掩码矩阵、位置矩阵和速度矩阵构成,其中,检测掩码矩阵由网联自动驾驶车辆的位置与探测半径决定,位置矩阵和速度矩阵的确定基于网联自动驾驶车辆能够探测的范围以及网联自动驾驶车辆能够探测的范围内车辆的状态;定义智能体的动作为信号相位是否变化,根据预先设定的相位情况,智能体的两种动作选择分别为:切换到下一相位,即a=1;保持当前相位,即a=0;智能体每次动作的时间间隔为1...
【专利技术属性】
技术研发人员:张健,王涵,王博,姜夏,史晓宇,熊壮,
申请(专利权)人:东南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。