当前位置: 首页 > 专利查询>东南大学专利>正文

基于松散同步的城市交通强化学习并行训练方法技术

技术编号:45670616 阅读:16 留言:0更新日期:2025-06-27 19:12
本发明专利技术涉及强化学习技术领域,且公开了基于松散同步的城市交通强化学习并行训练方法,包括以下步骤:S1、路网分区及初始化;S2、初步模拟与数据记录;S3、松散同步通信;S4、边界处理;S5、并行奖励计算;S6、模型训练与策略更新;S7、收敛性验证。本发明专利技术中,提出每轮强化学习训练结束时才进行信息的跨区域同步,取代传统每回合每个时间步均进行一次信息同步的方式,显著减少了通信频率。这避免了因同步通信成本过高而拖慢整体训练效率的问题,在大规模交通网络仿真和强化学习训练中,能有效降低同步开销,提升训练速度。

【技术实现步骤摘要】

本专利技术涉及强化学习,尤其涉及基于松散同步的城市交通强化学习并行训练方法


技术介绍

1、交通调控策略是城市管理的一个重要组成部分,采用先进的信息技术和智能算法,特别是将强化学习技术应用于交通管理,成为有效缓解城市交通问题的新策略。强化学习是一种机器学习技术,它通过与环境的交互优化决策策略。在交通管理领域,强化学习的应用包括交通信号控制、道路定价和公共交通系统调度等多个方面,显示出广泛的应用前景。强化学习的控制策略依赖于与交通环境交互生成的数据,在不同的结果下探索做出正确的决策。然而,现实世界的城市交通无法提供足够的交互式数据来训练这些政策,因为政策的探索可能会对城市交通产生负面的影响,例如引发交通的拥堵。因此,交通仿真器作为替代方案而诞生,允许研究人员在不干扰实际交通流的情况下,测试和评估他们的rl策略。这些模拟器从交通控制策略做出的决策中获取流量动作,并在模拟器中模拟路网和车辆的状态。目前被广泛应用的交通仿真器包括sumo,cityflow等。

2、强化学习在交通流控制中的应用虽然表现出色,但由于需要经历多轮训练才能收敛到最优策略,导致其本文档来自技高网...

【技术保护点】

1.基于松散同步的城市交通强化学习并行训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法,其特征在于:在步骤S3中,更新跨界车辆时间步信息时,以当轮训练中车辆实际行驶速度、行驶距离与预计情况的差异为依据进行调整,若实际速度比预计速度快,且行驶距离超过原有路径的10%,则相应提前跨界车辆进入相邻分区的时间步。

3.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法,其特征在于:在步骤S4中,强化学习模型向阴影节点发送车辆信息时,信息包含车辆的速度、行驶方向,以便更准确地模拟车辆在子路网分区边界的行为,...

【技术特征摘要】

1.基于松散同步的城市交通强化学习并行训练方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法,其特征在于:在步骤s3中,更新跨界车辆时间步信息时,以当轮训练中车辆实际行驶速度、行驶距离与预计情况的差异为依据进行调整,若实际速度比预计速度快,且行驶距离超过原有路径的10%,则相应提前跨界车辆进入相邻分区的时间步。

3.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法,其特征在于:在步骤s4中,强化学习模型向阴影节点发送车辆信息时,信息包含车辆的速度、行驶方向,以便更准确地模拟车辆在子路网分区边界的行为,维持邻域信息的完整性。

4.根据权利要求1所...

【专利技术属性】
技术研发人员:金嘉晖李医文
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1