基于松散同步的城市交通强化学习并行训练方法技术

技术编号：45670616 阅读：16 留言：0更新日期：2025-06-27 19:12

本发明专利技术涉及强化学习技术领域，且公开了基于松散同步的城市交通强化学习并行训练方法，包括以下步骤：S1、路网分区及初始化；S2、初步模拟与数据记录；S3、松散同步通信；S4、边界处理；S5、并行奖励计算；S6、模型训练与策略更新；S7、收敛性验证。本发明专利技术中，提出每轮强化学习训练结束时才进行信息的跨区域同步，取代传统每回合每个时间步均进行一次信息同步的方式，显著减少了通信频率。这避免了因同步通信成本过高而拖慢整体训练效率的问题，在大规模交通网络仿真和强化学习训练中，能有效降低同步开销，提升训练速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习，尤其涉及基于松散同步的城市交通强化学习并行训练方法。

技术介绍

1、交通调控策略是城市管理的一个重要组成部分，采用先进的信息技术和智能算法，特别是将强化学习技术应用于交通管理，成为有效缓解城市交通问题的新策略。强化学习是一种机器学习技术，它通过与环境的交互优化决策策略。在交通管理领域，强化学习的应用包括交通信号控制、道路定价和公共交通系统调度等多个方面，显示出广泛的应用前景。强化学习的控制策略依赖于与交通环境交互生成的数据，在不同的结果下探索做出正确的决策。然而，现实世界的城市交通无法提供足够的交互式数据来训练这些政策，因为政策的探索可能会对城市交通产生负面的影响，例如引发交通的拥堵。因此，交通仿真器作为替代方案而诞生，允许研究人员在不干扰实际交通流的情况下，测试和评估他们的rl策略。这些模拟器从交通控制策略做出的决策中获取流量动作，并在模拟器中模拟路网和车辆的状态。目前被广泛应用的交通仿真器包括sumo，cityflow等。

2、强化学习在交通流控制中的应用虽然表现出色，但由于需要经历多轮训练才能收...

【技术保护点】

1.基于松散同步的城市交通强化学习并行训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法，其特征在于：在步骤S3中，更新跨界车辆时间步信息时，以当轮训练中车辆实际行驶速度、行驶距离与预计情况的差异为依据进行调整，若实际速度比预计速度快，且行驶距离超过原有路径的10％，则相应提前跨界车辆进入相邻分区的时间步。

3.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法，其特征在于：在步骤S4中，强化学习模型向阴影节点发送车辆信息时，信息包含车辆的速度、行驶方向，以便更准确地模拟车辆在子路网分区边界的行为，...

【技术特征摘要】

1.基于松散同步的城市交通强化学习并行训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法，其特征在于：在步骤s3中，更新跨界车辆时间步信息时，以当轮训练中车辆实际行驶速度、行驶距离与预计情况的差异为依据进行调整，若实际速度比预计速度快，且行驶距离超过原有路径的10％，则相应提前跨界车辆进入相邻分区的时间步。

3.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法，其特征在于：在步骤s4中，强化学习模型向阴影节点发送车辆信息时，信息包含车辆的速度、行驶方向，以便更准确地模拟车辆在子路网分区边界的行为，维持邻域信息的完整性。

4.根据权利要求1所...

【专利技术属性】
技术研发人员：金嘉晖，李医文，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人