当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于协调强化学习的城市路网集成控制方法技术

技术编号:42192111 阅读:28 留言:0更新日期:2024-07-30 18:41
本发明专利技术提供一种基于协调强化学习的城市路网集成控制方法,在交通仿真构建包含人类驾驶车辆和网联自动驾驶车辆的网联交通环境的基础上,构建由不同目标导向的双行动者网络组成的协调决策结构;通过采用集中式训练分散式执行学习范式,并结合注意力机制实现双行动者网络间的信息共享,以实现车辆诱导与交通信号控制的协调优化控制;并采用综合奖励机制,根据实际交通需求,为不同车辆动态分配奖励权重,以驱动多智能体之间的动态协调。

【技术实现步骤摘要】

本专利技术属于强化学习、深度学习和交通控制,具体涉及一种基于协调强化学习的城市路网集成控制方法


技术介绍

1、传统的交通管理方法通常依赖于静态规则和预定义的控制策略,这在面对复杂多变的城市交通环境时显得力不从心。然而,随着人工智能技术的迅猛发展,强化学习作为一种自适应决策方法,已在交通控制领域展现出巨大的应用潜力。特别是在网联环境下,车辆与交通设施之间的信息交互变得更为高效,为基于深度强化学习的交通控制方法提供了可能。

2、交通信号控制和车辆诱导是两种能够优化交通效率、缓解城市拥堵的两个关键手段。虽然基于深度强化学习的自适应交通控制方法已经在解决复杂交通挑战方面取得了重大进展,但这些方法通常只关注宏观层面的全局优化,而没有充分考虑到个别车辆的微观层面上的具体需求。车速诱导是实现交通流精细动态控制的有效手段,但它往往会忽略实际交通信号控制需求,给驾驶过程带来不确定性。有研究表明,在宏观和微观层面协调交通信号控制和车速诱导,可显著改善交通流的优化和整个路网的交通效率。但当前基于强化学习的交通信号控制与车辆诱导集成优化研究尚显不足,两者之间的协同机本文档来自技高网...

【技术保护点】

1.一种基于协调强化学习的城市路网集成控制方法,其特征在于,在交通仿真构建包含人类驾驶车辆和网联自动驾驶车辆的网联交通环境的基础上,构建由不同目标导向的双行动者网络组成的协调决策结构;通过采用集中式训练分散式执行学习范式,并结合注意力机制实现双行动者网络间的信息共享,以实现车辆诱导与交通信号控制的协调优化控制;并采用综合奖励机制,根据实际交通需求,为不同车辆动态分配奖励权重,以驱动多智能体之间的动态协调。

2.根据权利要求1所述的一种基于协调强化学习的城市路网集成控制方法,其特征在于:所述交通仿真是利用交通仿真软件SUMO基于实际路网及交通需求数据搭建仿真平台作为交互环境;基...

【技术特征摘要】

1.一种基于协调强化学习的城市路网集成控制方法,其特征在于,在交通仿真构建包含人类驾驶车辆和网联自动驾驶车辆的网联交通环境的基础上,构建由不同目标导向的双行动者网络组成的协调决策结构;通过采用集中式训练分散式执行学习范式,并结合注意力机制实现双行动者网络间的信息共享,以实现车辆诱导与交通信号控制的协调优化控制;并采用综合奖励机制,根据实际交通需求,为不同车辆动态分配奖励权重,以驱动多智能体之间的动态协调。

2.根据权利要求1所述的一种基于协调强化学习的城市路网集成控制方法,其特征在于:所述交通仿真是利用交通仿真软件sumo基于实际路网及交通需求数据搭建仿真平台作为交互环境;基于合成仿真路网和真实路网分布特征绘制仿真路网,使用涵盖典型交通需求的城市道路流量数据,设置各类车辆微观交通参数,以使仿真路网反映路网真实运行状态。

3.根据权利要求1所述的基于一种基于协调强化学习的城市路网集成控制方法,其特征在于:所述构建包含人类驾驶车辆和网联自动驾驶车辆的网联交通环境,具体包括设置交通灯或车辆为独立智能体,通过与环境及其他智能互动,并基于感知模块获取环境信息;在每个时间步,智能体从其局部观测中提取特征表示,并与全局状态空间中的信息进行聚合操作;使用深度神经网络结构聚合观测值特征,并引入长短时记忆递归神经网络机制以拓展状态感知范围。

4.根据权利要求3所述的一种基于协调强化学习的城市路网集成控制方法,其特征在于:

5.根据权利要求4所述的一种基于协调强化学习的城市路网集成控制方法,其特征在于:

6.根据权利要求5所述的一种基于协调强化学习的城市路网集成控制方法,其特征在于:

7.根据权利要求1所述的一种基于协调强化学习的城市路网集成控制方法,其特征在于:基于双行动者网络的所述协调决策结构,由两个独立的行动者网络组成,一...

【专利技术属性】
技术研发人员:方捷游娅许梦云卢明雯何杭宇吴志超
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1