一种基于深度强化学习的高速公路合流区协同控制方法技术

技术编号：45436139 阅读：30 留言：0更新日期：2025-06-04 19:16

本发明专利技术公开了一种基于深度强化学习的高速公路合流区的协同控制方法，建立LiikeSim‑Python联合仿真环境，在仿真环境中设置线圈检测器获取高速公路合流区上下游的交通流数据；采用基于高斯混合分布的EM算法作为交通状态分类器，以高速公路合流区的交通流数据为输入，对高速公路合流区的交通状态进行划分；设计状态空间、动作空间和奖励函数；以高速公路合流区的状态空间作为输入，以可变限速智能体和匝道计量智能体的动作作为输出，构建时序特征下的多智能体共享经验的网络模型；为可变限速和匝道计量智能体分别设置一个独立的经验池，以控制周期为频率收集智能体与交通仿真环境的交互经验；使用抽样样本训练智能体模型；利用训练得到的智能体模型实现高速公路合流区的协同控制。本发明专利技术能够降低高速公路合流区交通的行程延误。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度强化学习和交通控制等，具体涉及一种基于深度强化学习的高速公路合流区协同控制方法。

技术介绍

1、高速公路合流区是交通流中极易形成瓶颈并导致交通拥堵和事故多发的区域，现有的交通控制方法，包括可变限速控制和匝道控制方法，能够对匝道瓶颈区的交通流起到明显的调节作用，是缓解高速公路拥堵最有效的控制方式。随着交通流量的增加，合流区的交通管理和控制变得越来越复杂和重要。传统的交通控制方法，如固定信号控制和基于规则的控制方法，往往难以实时应对变化多端的交通状况，导致交通效率低下和车辆延误增加。

2、深度强化学习(deep reinforcement learning,drl)作为一种结合了深度学习和强化学习优势的方法，在复杂的动态环境下展现了出色的决策能力和自适应能力。智能体通过与环境的不断交互，能够自主学习最优策略，适应环境的变化，特别适合处理多变量、多目标的复杂交通问题。基于深度强化学习的高速公路合流区协同控制方法，通过感知环境中的交通流量、车速、排队长度等信息，智能体可以实时调整合流策略，如车速控制、信号调度等，以...

【技术保护点】

1.一种基于深度强化学习的高速公路合流区协同控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度强化学习的高速公路合流区协同控制方法，其特征在于，步骤1，根据真实路网环境和交通流数据建立LiikeSim-Python联合仿真环境，并在仿真环境中设置线圈检测器获取高速公路合流区上下游的交通流数据，具体包括以下步骤：

3.根据权利要求1所述的基于深度强化学习的高速公路合流区协同控制方法，其特征在于，步骤2，采用基于高斯混合分布的EM算法作为交通状态分类器，以高速公路合流区的交通流数据为输入，对高速公路合流区的交通状态进行划分，具体

【技术特征摘要】

1.一种基于深度强化学习的高速公路合流区协同控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度强化学习的高速公路合流区协同控制方法，其特征在于，步骤1，根据真实路网环境和交通流数据建立liikesim-python联合仿真环境，并在仿真环境中设置线圈检测器获取高速公路合流区上下游的交通流数据，具体包括以下步骤：

3.根据权利要求1所述的基于深度强化学习的高速公路合流区协同控制方法，其特征在于，步骤2，采用基于高斯混合分布的em算法作为交通状态分类器，以高速公路合流区的交通流数据为输入，对高速公路合流区的交通状态进行划分，具体包括以下步骤：

4.根据权利要求1所述的基于深度强化学习的高速公路合流区协同控制方法，其特征在于，步骤3，根据步骤1线圈检测器获取的高速公路合流区上下游的交通流数据和步骤2中交通状态分类器得到的合流区的交通状态设计状态空间、动作空间和奖励函数，具体为：

5.根据权利要求1所述的基于深度强化学习的高速公路合流区协同控制方法，其特征在于，步骤4，以步骤3中高速公路合流区的状态空间作为输入，以可变限速智能体和匝道计量智能体的动作作为输出，构建时序特征下的多智能体共享经验的网络模型，包含用于提取高速公路交通流时序特征的lstm时序特征融合模块，以及用于输出智能体动作...

【专利技术属性】
技术研发人员：张伟斌，李鹏飞，董颖月，乔宇，王淇，徐雨彤，宋宇昊，甘露，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人