当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于多智能体强化学习的混行多匝道协作合流控制方法技术

技术编号:37151097 阅读:20 留言:0更新日期:2023-04-06 22:07
本发明专利技术公开了一种基于多智能体强化学习的混行多匝道协作合流控制方法。针对智能网联车辆和人工驾驶车辆混行的高速公路连续入口匝道路网,应用多智能体强化学习算法训练得到多匝道协作控制模型,并通过分别并行监测各入口匝道附近主线和匝道的交通流运行状况,控制主线和匝道上的智能网联车辆协作完成合流过程。在各入口匝道处,当主线由于匝道合流产生交通拥堵时,路侧控制器检索匝道中的智能网联车辆,令智能网联车到达合流点后停车等待让行,其中停车等待时间由多匝道协作控制模型确定,模型训练时会同时考虑多个入口匝道交通效率。对结束等待的匝道智能网联车辆,路侧控制器令最外侧主线车道上智能网联车在合流点上游协作慢行等待。游协作慢行等待。游协作慢行等待。

【技术实现步骤摘要】
一种基于多智能体强化学习的混行多匝道协作合流控制方法


[0001]本专利技术涉及一种基于多智能体强化学习的混行多匝道协作合流控制方法,在连续入口匝道,通过分别并行控制各合流控制区主线和匝道中智能网联车辆的相互协同实现混行车流的高效汇流,属于智能交通控制领域。

技术介绍

[0002]智能网联汽车,作为新一轮科技革命背景下的新兴产物,融合了自动驾驶技术和车联网技术,通过搭载先进的车载传感器、控制器、执行器等装置,实现更高级的多车协作,不仅可以提高交通流运行效率,还可以消除负面的环境和社会影响,有助于实现更加安全、便捷、舒适和绿色的出行模式。鉴于智能网联车辆联网可控的特点,很多研究提出通过直接控制智能网联车辆的运行来改善交通流的运行,其中,针对高速公路入口匝道区域的合流控制问题是研究热点之一。另,强化学习,作为机器学习领域的一个重要组成部分,要求智能体以“试错”的方式不断强化自己的决策能力,在交通控制领域尤其是匝道控制中得到了广泛的应用。据相关研究预计,到2040年智能网联车辆的市场占有率才能达到50%,可见,未来较长一段过渡期内,智能网联车辆和人工驾驶的普通车辆将在交通系统中混行并存。对于我国高速公路系统而言,若能将智能网联技术与强化学习技术相结合,通过控制智能网联车辆实现混行匝道区域的高效合流,或可弥补对控制信号灯过度依赖的不足,为传统匝道控制找到可行的替代方案。

技术实现思路

[0003]本专利技术的目的在于提供一种基于多智能体强化学习的混行多匝道协作合流控制方法。在高速公路连续入口匝道路网中,为每一个入口匝道区域设置合流控制区,在各控制区内安装路侧控制器,通过视频检测和车联网等技术手段监视控制区内主线和匝道的实时交通运行状态,然后中央处理器根据训练所得基于多智能体强化学习的多匝道协作控制模型确定最优控制策略,分别并行控制各匝道区域内部分自动车的运动来影响整体混行交通流的运行。最终实现的目标是当高速公路连续入口匝道的任一匝道合流区内发生交通拥堵时,由路侧控制器执行中央处理器下达的指令,协作控制匝道和主线个体自动车,来保证主线交通通畅和匝道车辆顺利汇流。
[0004]本专利技术采用的技术方案如下:
[0005]一种基于多智能体强化学习的混行多匝道协作合流控制方法,对各入口匝道分别并行实施如下协作合流控制过程:
[0006]步骤1:在高速公路连续入口匝道路网中,监测各入口匝道合流控制区内主线交通运行状态,若某个入口匝道合流控制区主线内存在交通拥堵,则进行至步骤2,否则继续监测;
[0007]步骤2:对存在交通拥堵的入口匝道合流控制区,检测合流点上游入口匝道的首车类型,如是智能网联车辆则进行至步骤3,若不是则匝道车辆正常行驶,返回步骤1;
[0008]步骤3:采集所有实施协作合流控制过程的入口匝道附近的交通状态信息,中央处理器根据训练得到的基于多智能体强化学习的多匝道协作控制模型确定协作控制指令,在发生拥堵的入口匝道处,路侧控制器根据收到的协作控制指令,控制步骤2检测的匝道智能网联头车被赋值等待时间W=W
RL
,进入步骤4;
[0009]步骤4:被控智能网联头车在等待时间W内于合流点上游停车等待,直到实际等待时长τ达到W,匝道等待车辆恢复正常行驶,进入步骤5;
[0010]步骤5:对执行完匝道智能网联车辆协作的入口匝道,检测合流点上游主线最外侧车道首车类型,若是智能网联车辆,则使该车在合流点上游以固定时长W
Z
减速/停车等待让行,使恢复正常行驶的匝道等待车辆能够顺利汇入主线,之后主线等待车辆恢复正常行驶,返回步骤1,对于匝道区域的交通拥堵问题重复步骤1

5的协作控制过程;
[0011]其中所述基于多智能体强化学习的多匝道协作控制模型通过如下方法训练获得:
[0012]c1、基于高速公路连续入口匝道的路网结构和交通需求集合,构建混行交通流训练环境;
[0013]c2、选择恰当的多智能体强化学习算法,设计算法的状态空间、动作空间、奖励函数,最终构建形成多智能体;
[0014]c3、将多智能体与训练环境相结合,混行交通流训练环境会实时依据智能体中多匝道协作控制模型给出的动作空间进行混行交通流仿真,多智能体会实时采集混行交通流仿真的状态空间输入至多匝道协作控制模型中并计算奖励函数、损失函数以训练多匝道协作控制模型,设置训练参数,随着训练环境中混行交通流的运行,多智能体不断更新多匝道协作控制模型策略,根据设定的收敛条件,确定为模型已收敛,则停止训练,获得基于多智能体强化学习的多匝道协作控制模型。
[0015]进一步地,所述各入口匝道合流控制区包括:在各入口匝道处,位于合流点上、下游的高速公路主线部分路段、位于合流点上游的入口匝道部分路段及加速车道全路段。
[0016]进一步地,监测各入口匝道合流控制区内主线交通运行状态的路段为合流点下游的加速车道长度一半的主线路段;判断各入口匝道监测路段交通运行状态指标包括:各合流控制区主线的交通量、速度、密度。
[0017]进一步地,所述实施协作合流控制过程的入口匝道附近的交通状态信息包括:各入口匝道合流控制区内,主线交通量、速度、密度,入口匝道交通量、密度、排队长度。
[0018]进一步地,所述检测合流点上游入口匝道的首车类型的检测地点为合流点上游的加速车道长度一半的匝道路段,所述检测合流点上游主线最外侧车道首车类型的检测地点为合流点上游的加速车道长度一半的主线最外侧路段。
[0019]进一步地,所述交通需求集合包括:主线交通需求集合、匝道交通需求集合、智能网联车辆渗透率集合。
[0020]进一步地,所述多智能体强化学习算法的学习方式包括:集中式学习、独立式学习、集中式训练分布式执行;状态空间的可选变量包括:入口匝道合流控制区主线交通量、速度、密度,入口匝道交通量、密度、排队长度中的一种或多种;动作空间是各入口匝道的匝道智能网联车协作受控时长;奖励函数为平均车速。
[0021]其中,所述状态空间表示为:
[0022]S={k1‑1,k1‑2,k1‑3,k2‑1,k2‑2,k2‑3,...,k
N
‑1,k
N
‑2,k
N
‑3}
[0023]式中:N表示高速公路路网中入口匝道个数,k
X
‑1、k
X
‑2、k
X
‑3分别表示第X个入口匝道合流控制区内区域1、2、3的平均车辆密度,单位为veh/km;入口匝道合流控制区内区域1、2、3为入口匝道合流控制区中合流点上游主线部分路段、合流点下游主线连续的两个部分路段,区域2、区域3的两个部分路段总长等于加速车道长度;
[0024]所述动作空间表示为:
[0025]A={a1,a2,...,a
N
},a
X
∈{8,12,16,20}
[0026]式中,a
X
表示第X个入口匝道的匝道智能网联车协本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体强化学习的混行多匝道协作合流控制方法,其特征在于,对各入口匝道分别并行实施如下协作合流控制过程:步骤1:在高速公路连续入口匝道路网中,监测各入口匝道合流控制区内主线交通运行状态,若某个入口匝道合流控制区主线内存在交通拥堵,则进行至步骤2,否则继续监测;步骤2:对存在交通拥堵的入口匝道合流控制区,检测合流点上游入口匝道的首车类型,如是智能网联车辆则进行至步骤3,若不是则匝道车辆正常行驶,返回步骤1;步骤3:采集所有实施协作合流控制过程的入口匝道附近的交通状态信息,中央处理器根据训练得到的基于多智能体强化学习的多匝道协作控制模型确定协作控制指令,在发生拥堵的入口匝道处,路侧控制器根据收到的协作控制指令,控制步骤2检测的匝道智能网联头车被赋值等待时间W=W
RL
,进入步骤4;步骤4:被控智能网联头车在等待时间W内于合流点上游停车等待,直到实际等待时长τ达到W,匝道等待车辆恢复正常行驶,进入步骤5;步骤5:对执行完匝道智能网联车辆协作的入口匝道,检测合流点上游主线最外侧车道首车类型,若是智能网联车辆,则使该车在合流点上游以固定时长W
Z
减速/停车等待让行,使恢复正常行驶的匝道等待车辆能够顺利汇入主线,之后主线等待车辆恢复正常行驶,返回步骤1,对于匝道区域的交通拥堵问题重复步骤1

5的协作控制过程;其中所述基于多智能体强化学习的多匝道协作控制模型通过如下方法训练获得:c1、基于高速公路连续入口匝道的路网结构和交通需求集合,构建混行交通流训练环境;c2、选择恰当的多智能体强化学习算法,设计算法的状态空间、动作空间、奖励函数,最终构建形成多智能体;c3、将多智能体与训练环境相结合,混行交通流训练环境会实时依据智能体中多匝道协作控制模型给出的动作空间进行混行交通流仿真,多智能体会实时采集混行交通流仿真的状态空间输入至多匝道协作控制模型中并计算奖励函数、损失函数以训练多匝道协作控制模型,设置训练参数,随着训练环境中混行交通流的运行,多智能体不断更新多匝道协作控制模型策略,根据设定的收敛条件,确定为模型已收敛,则停止训练,获得基于多智能体强化学习的多匝道协作控制模型。2.根据权利要求1所述的方法,其特征在于,所述各入口匝道合流控制区包括:在各入口匝道处,位于合流点上、下游的高速公路主线部分路段、位于合流点上游的入口匝道部分路段及加速车道全路段。3.根据权利要求1所述的方法,其特征在于,监测各入口匝道合流控制区内主线交通运行状态的路段为合流点下游的加速车道长度一半的主线路段;判断各入口匝道监测路段交通运行状态指标包括:各合流控制区主线的交通量、速度、密度。4.根据权利要求1所述的方法,其特征在于,所述实施协作合流控制过程的入口匝道附近的交通状态信息包括:各入口匝道合流控制区内,主线交通量、速度、密度,入口匝道交通量、密...

【专利技术属性】
技术研发人员:闫钧齐余宏鑫章立辉王亦兵
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1