一种具有适应性的DQN模型优化方法及应用技术

技术编号:37143493 阅读:17 留言:0更新日期:2023-04-06 21:52
本发明专利技术提供一种具有适应性的DQN模型优化方法及应用,方法包括:设计交叉口,定义DQN模型的状态、动作和奖励函数,设置DQN模型的超参数;设定多个交通场景;基于多个交通场景对DQN模型分别进行训练,得到多个训练后的DQN模型;设定新交通场景;将多个交通场景中的至少一个交通场景以及新交通场景作为测试交通场景,基于测试交通场景对多个训练后的DQN模型分别进行适应性检验,筛选得到优化后的DQN模型。本发明专利技术通过设计的多个交通场景分别对DQN模型进行训练,通过设计的测试交通场景对训练后的多个DQN模型进行适应性检验,筛选出优化后的DQN模型,可适用于不同交叉口的各交通场景,实现对不同交叉口的交通信号控制。不同交叉口的交通信号控制。不同交叉口的交通信号控制。

【技术实现步骤摘要】
一种具有适应性的DQN模型优化方法及应用


[0001]本专利技术涉及智能交通
,具体而言,涉及一种具有适应性的DQN模型优化方法及应用。

技术介绍

[0002]随着道路交通的不断发展,由于城市道路空间有限,道路上产生了一系列诸如交通拥堵、交通事故等交通问题,造成了严重的经济损失,制约了城市的可持续发展,交通日益拥堵成为城市的普遍问题。针对这一问题,使用智能化技术构建智能交通系统的措施应运而生,交通信号控制作为智能交通系统的核心内容,成为解决交通问题的重要手段。
[0003]传统交通信号控制利用环形线圈传感器采集车流量数据,将采集的数据作为交通信号控制参数的依据,实现对信号灯的固定配时优化,虽然能检测出车辆的数量,但无法识别车辆类型以及连续车辆,通常需要通过人工调查确定车辆类型的分布情况,获取到的交通数据可靠性较低,得到的信号控制策略并不精确。随着信号处理及科学技术的发展,视频和雷达传感器技术得到了较广泛的应用,视频检测技术利用摄像头拍摄交叉口的实时场景,传到处理器进行图像处理和识别,从而实现交通流量统计和车速识别。基于视频检测器进行大规模交通流数据收集与分析,克服了图像处理的限制,为交通信号控制提供了支持。微波雷达传感器能实现对多个车道的实时检测,检测到的数据包括车流量、车速和占有率等,同时也能提供实时交通状况信息,常用于传统信号控制方法。然而,这些传统的信号控制方法都对信号进行跨时段、跨周期的优化,难以应对复杂时变的交通需求。
[0004]为了得到能适应复杂交通需求的数据驱动型模型,研究者提出了强化学习的信号控制方法,强化学习将连续的交通状态离散化处理,通过Q值表格的迭代得到最优的信号控制策略,它从环境中获取经验,利用与人类学习类似的试错学习模式,自主与环境互动从而做出决策。后来强化学习的发展进入到与深度学习相互融合的阶段,Minh V等首先提出深度Q网络模型(DQN模型),适合于高维数据的处理。然而,在现实交通场景中,城市的交叉口众多,交通需求的维度很高,每个交叉口都需要训练出一套相应的信号控制模型,重新训练标定模型参数将花费大量时间。因此,如何得到能应用于不同交叉口的各交通场景的适用性模型成为本领域亟待解决的技术问题。

技术实现思路

[0005]本专利技术提供了一种具有适应性的DQN模型优化方法及应用,以解决现有技术针对不同的交叉口都需要训练出一套相应的信号控制模型,重新训练标定模型参数将花费大量时间的技术问题,本专利技术的优化方法得到的DQN模型具有适应性,可应用于不同交叉口的各交通场景,实现对不同交叉口的交通信号控制。
[0006]一方面,本专利技术提供了一种具有适应性的DQN模型优化方法,包括以下步骤:S1、设计道路交叉口,定义DQN模型的状态、动作和奖励函数,并设置DQN模型的超参数;S2、基于所述道路交叉口,设定多个交通场景;S3、基于所述多个交通场景对DQN模型分别进行训练,得
到多个训练后的DQN模型;S4、基于所述道路交叉口,设定与所述多个交通场景不同的新交通场景;S5、将所述多个交通场景中的至少一个交通场景以及所述新交通场景作为测试交通场景,基于测试交通场景对所述多个训练后的DQN模型分别进行适应性检验,筛选得到优化后的DQN模型。
[0007]在本专利技术的一些实施方式中,所述道路交叉口设计为包括四个方向的十字形道路交叉口,四个方向包括东向、西向、北向和南向,各个方向均为双向四车道,构成八个流向,双向四车道包括一条左转车道、两条直行车道和一条右转车道。
[0008]在本专利技术的一些实施方式中,所述状态定义为道路交叉口运行状态S,所述道路交叉口运行状态S通过车辆排队长度q
i
进行表征,其中,q
i
为道路交叉口各流向对应车道的车辆排队长度,八维矩阵s
t
=[q1,q2,q3,q4,q5,q6,q7,q8]为t时刻时道路交叉口的道路交叉口运行状态;所述动作定义为四相位集合A,A={NSL,NSS,WEL,WES},其中,NSL表示南北方向左转通行,NSS表示南北方向直行通行,WEL表示东西方向左转通行,WES表示东西方向直行通行;所述奖励函数定义为车均延误时间的相反数,奖励函数的表达式为:其中,r
t
为t时刻时道路交叉口的奖励函数;α为权重系数,α=1;为t时刻时道路交叉口的车均延误时间;Δt为仿真时间步长。
[0009]在本专利技术的一些实施方式中,DQN模型的超参数包括仿真时长、仿真次数、迭代数、经验池容量、批处理大小、学习率β、折扣系数γ、单位绿灯时长g
t
和单位黄灯时长y
t
;其中,DQN模型的超参数初始化值为:仿真时长6000、仿真次数200、迭代数4、经验池容量50000、批处理大小400、学习率β=0.0003、折扣系数γ=0.9、单位绿灯时长g
t
=6和单位黄灯时长y
t
=3。
[0010]在本专利技术的一些实施方式中,所述多个交通场景包括极端交通状态的交通场景、交通状态完全均衡的交通场景、均衡与轻度不均衡交通状态的交通场景和均衡性全面的交通场景;其中,所述多个交通场景按照十字形道路交叉口的四个方向分配到的车流量比例进行划分,具体的划分方式如下:以1200s为一个时段,分5个时段输入车流;将十字形道路交叉口的四个方向中东向、西向、北向和南向在x时段分配到的车流量比例分别记为r1(x),r2(x),r3(x),r4(x);极端交通状态的交通场景为:5个时段中r1(x)=r2(x)=0%,r3(x)=r4(x)=50%;交通状态完全均衡的交通场景为:5个时段中r1(x)=r2(x)=r3(x)=r4(x)=25%;均衡与轻度不均衡交通状态的交通场景为:5个时段中第1时段的r1(x)=r2(x)=r3(x)=r4(x)=25%,第2时段和第3时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=10%,第4时段和第5时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=20%;均衡性全面的交通场景为:5个时段中第1时段的r1(x)=r2(x)=r3(x)=r4(x)=25%,第2时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=10%,第3时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=20%,第4时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=30%,第5时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=40%。
[0011]在本专利技术的一些实施方式中,S3步骤的具体过程如下:S31、基于SUMO和Python软件构建交通仿真环境,将所述多个交通场景中的任一交通场景导入交通仿真环境;S32本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种具有适应性的DQN模型优化方法,其特征在于,包括以下步骤:S1、设计道路交叉口,定义DQN模型的状态、动作和奖励函数,并设置DQN模型的超参数;S2、基于所述道路交叉口,设定多个交通场景;S3、基于所述多个交通场景对DQN模型分别进行训练,得到多个训练后的DQN模型;S4、基于所述道路交叉口,设定与所述多个交通场景不同的新交通场景;S5、将所述多个交通场景中的至少一个交通场景以及所述新交通场景作为测试交通场景,基于测试交通场景对所述多个训练后的DQN模型分别进行适应性检验,筛选得到优化后的DQN模型。2.如权利要求1所述的具有适应性的DQN模型优化方法,其特征在于,所述道路交叉口设计为包括四个方向的十字形道路交叉口,四个方向包括东向、西向、北向和南向,各个方向均为双向四车道,构成八个流向,双向四车道包括一条左转车道、两条直行车道和一条右转车道。3.如权利要求1所述的具有适应性的DQN模型优化方法,其特征在于,所述状态定义为道路交叉口运行状态S,所述道路交叉口运行状态S通过车辆排队长度q
i
进行表征,其中,q
i
为道路交叉口各流向对应车道的车辆排队长度,八维矩阵s
t
=[q1,q2,q3,q4,q5,q6,q7,q8]为t时刻时道路交叉口的道路交叉口运行状态;所述动作定义为四相位集合A,A={NSL,NSS,WEL,WES},其中,NSL表示南北方向左转通行,NSS表示南北方向直行通行,WEL表示东西方向左转通行,WES表示东西方向直行通行;所述奖励函数定义为车均延误时间的相反数,奖励函数的表达式为:其中,r
t
为t时刻时道路交叉口的奖励函数;α为权重系数,α=1;为t时刻时道路交叉口的车均延误时间;Δt为仿真时间步长。4.如权利要求1所述的具有适应性的DQN模型优化方法,其特征在于,DQN模型的超参数包括仿真时长、仿真次数、迭代数、经验池容量、批处理大小、学习率β、折扣系数γ、单位绿灯时长g
t
和单位黄灯时长y
t
;其中,DQN模型的超参数初始化值为:仿真时长6000、仿真次数200、迭代数4、经验池容量50000、批处理大小400、学习率β=0.0003、折扣系数γ=0.9、单位绿灯时长g
t
=6和单位黄灯时长y
t
=3。5.如权利要求1所述的具有适应性的DQN模型优化方法,其特征在于,所述多个交通场景包括极端交通状态的交通场景、交通状态完全均衡的交通场景、均衡与轻度不均衡交通状态的交通场景和均衡性全面的交通场景;其中,所述多个交通场景按照十字形道路交叉口的四个方向分配到的车流量比例进行划分,具体的划分方式如下:以1200s为一个时段,分5个时段输入车流;将十字形道路交叉口的四个方向中东向、西向、北向和南向在x时段分配到的车流量比例分别记为r1(x),r2(x),r3(x),r4(x);极端交通状态的交通场景为:5个时段中r1(x)=r2(x)=0%,r3(x)=r4(x)=50%;交通状态完全均衡的交通场景为:5个时段中r1(x)=r2(x)=r3(x)=r4(x)=25%;均衡与轻度
不均衡交通状态的交通场景为:5个时段中第1时段的r1(x)=r2(x)=r3(x)=r4(x)=25%,第2时段和第3时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=10%,第4时段和第5时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=20%;均衡性全面的交通场景为:5个时段中第1时段的r1(x)=r2(x)=r3(x)=r4(x)=25%,第2时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=10%,第3时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)=20%,第4时段的[r1(x)=r2(x)]<[r3(x)=r4(x)]且r3(x)

r1(x)...

【专利技术属性】
技术研发人员:谭墍元袁倩郭伟伟刘福裕
申请(专利权)人:北方工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1