基于图神经网络强化学习的分流区混合交通流控制方法技术

技术编号:37441880 阅读:21 留言:0更新日期:2023-05-06 09:13
一种基于图神经网络强化学习的分流区混合交通流控制方法,包括:步骤1:设置混合交通流控制的任务情景,并定义智能体所能观测到的状态空间;步骤2:构建车辆网络的邻接矩阵对车辆关系进行表示,确定模型的整体网络结构;步骤3:定义强化学习智能体的动作空间和奖励函数;基于任务场景将动作空间定义为换道动作的集合,设置奖励函数以引导智能体学习能得到最优动作的策略;步骤4:对整体模型进行训练和测试;使用经验回放和目标网络对整体模型进行训练,之后在不同的交通条件下中测试强化学习智能体模型的性能。本发明专利技术能在不占用过多车辆计算资源的情况下实现对混合交通流的高效控制,提升高速公路分流区的交通效率。提升高速公路分流区的交通效率。提升高速公路分流区的交通效率。

【技术实现步骤摘要】
基于图神经网络强化学习的分流区混合交通流控制方法


[0001]本专利技术属于智能交通与深度强化学习的交叉领域,涉及一种基于图神经网络强化学习的分流区混合交通流控制方法。

技术介绍

[0002]得益于车辆自动化水平的提高和网联技术的快速发展,网联自动驾驶车辆(CAV)实现了更加安全高效的驾驶,有助于提升交通效率、改善交通安全。随着市场渗透率的提高,CAV将在现代交通系统中扮演越发重要的角色,同时人工驾驶汽车(HDV)与CAV的混合交通流也将长期存在。因此,在混合交通流中,如何控制CAV实现协同感知与驾驶,将成为智能交通系统的重要问题。
[0003]已有的自动驾驶车辆(AV)控制方法有基于规则的IDM跟驰模型和MOBIL换道模型等,这类方法基于启发式和硬编码规则来控制车辆,无法适用于复杂的交通场景;另一类常见的方法是基于优化的方法,这类方法难以解决动态多智能体情景下输入输出可变的问题。随着近年来人工神经网络和强化学习的快速发展,基于数据驱动的深度强化学习(DRL)方法表现出效率和鲁棒性上的优势,逐渐被应用在AV的控制中。
专利技术内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络强化学习的分流区混合交通流控制方法,其特征在于,含有以下步骤:步骤1:设置混合交通流控制的任务情景,并定义智能体所能观测到的状态空间;基于SUMO仿真平台搭建高速公路匝道分流区交通场景,设定环境中HDV的行为模式和CAV的目标任务,基于仿真环境将状态空间定义为车辆驾驶信息、邻接矩阵和掩码矩阵的集合;步骤2:构建车辆网络的邻接矩阵对车辆关系进行表示,确定模型的整体网络结构;基于车辆之间的相互作用建立车辆网络的邻接矩阵,构建特征编码器、图神经网络和策略网络以确定模型的整体结构;步骤3:定义强化学习智能体的动作空间和奖励函数;基于任务场景将动作空间定义为换道动作的集合,设置奖励函数以引导智能体学习能得到最优动作的策略;步骤4:对整体模型进行训练和测试;使用经验回放和目标网络对整体模型进行训练,之后在不同的交通条件下中测试强化学习智能体模型的性能。2.如权利要求1所述的基于图神经网络强化学习的分流区混合交通流控制方法,其特征在于,所述步骤1的过程如下:步骤1.1:设置任务情景;仿真环境基于SUMO平台,使用含有两个退出匝道的三车道高速公路表示匝道分流区;设高速公路主线道路长度为L,匝道1入口到主线道路入口的路段设为Seg1,其长度为L1,匝道2入口到匝道1入口的路段设为Seg2,其距离为L2;路段限速为v
max
,其中CAV的最高速度为v
c
,HDV的最高速度为v
h
;包括HDV和CAV在内的所有车辆从左侧进入路段,并随机设置初始位置、所在车道和初始速度;其中,HDV以f
h
的流量行驶在高速公路主线道路上,使用SUMO内置的IDM跟驰模型和LC2013换道模型进行纵向与横向动作控制;CAV被分为CAV_1和CAV_2,其目标的退出匝道分别为匝道1和匝道2;两种CAV以f
c
的流量从路段入口进入主线道路,之后分别从对应的匝道退出,使用IDM模型进行纵向动作控制,使用基于强化学习的智能体进行横向动作控制;步骤1.2:定义智能体的状态空间;在每一时刻,智能体观测交通场景中车辆i(HDV或CAV)的驾驶信息,将其表示为车辆驾驶特征包含车辆i当前的位置、速度、当前所在车道和任务意图;对观测到的车辆纵向位置和速度做归一化处理:到的车辆纵向位置和速度做归一化处理:对于分类变量和使用One

Hot编码来表示当前所在车道和目标意图,分别表示车辆在左侧车道、中间车道和右侧车道,分别表示车辆的意图为直行、从匝道1退出和从匝道2退出;智能体的状态空间S
t
用N
×
F的矩阵形式表示为S
t
=(X
t
,A
t
,M
t
),包括场景中所有车辆状
态的集合X
t
、基于车辆互联网络构建的邻接矩阵A
t
和用于将CAV信息滤出的掩码矩阵M
t
,其中N为场景中车辆的最大总数,F为x
i
的特征维数;邻接矩阵A
t
定义为N
×
N的矩阵,将车辆互联网络建模为无向图形式,以矩阵元素a
jk
=1表示图中节点j和节点k有连接关系;由于HDV的横向动作由LC2013模型控制,只通过所构建的模型网络计算CAV的动作决策,而S
t
中包含所有种类的车辆信息,因此需要将属于CAV的特征信息滤出以生成对应的动作决策;基于X
t
中车辆i的排列顺序得到掩码矩阵M
t
,表示为长度为N的向量,在CAV对应的索引处其元素值为1:素值为1:3.如权利要求1所述的基于图神经网络强化学习的分流区混合交通流控制方法,其特征在于,所述步骤2的过程如下:将车辆组成的网络表示为图形式G
t
={V
t
,E
t
},其中V
t
表示每一时刻车辆节点的集合,E
t
表示车辆之间的相关性;对于车辆i和j,基于当前位置和定义其连边关系:其中ρ表示车辆传感器的感知范围;额外地,当车辆i和j同为CAV时,由于CAV之间可以进行联网通信,基于车辆目标意图(即车辆种类)和定义CAV之间的连接。基于车辆网络图可得到邻接矩阵:构建包含z
F
层维度为d
F
的全连接层的编码器F,使用Relu作为激活函数,对每一时刻输入的车辆状态集合X
t
进行编码,得到节点嵌入H
t
:构建包含z
G
层维度为d
G
的图卷积层的图神经网络G,使用图卷积神经网络(GCN)对...

【专利技术属性】
技术研发人员:徐东伟刘沛文邱庆伟
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1