【技术实现步骤摘要】
本专利技术涉及强化学习,尤其涉及基于松散同步的城市交通强化学习并行训练方法。
技术介绍
1、交通调控策略是城市管理的一个重要组成部分,采用先进的信息技术和智能算法,特别是将强化学习技术应用于交通管理,成为有效缓解城市交通问题的新策略。强化学习是一种机器学习技术,它通过与环境的交互优化决策策略。在交通管理领域,强化学习的应用包括交通信号控制、道路定价和公共交通系统调度等多个方面,显示出广泛的应用前景。强化学习的控制策略依赖于与交通环境交互生成的数据,在不同的结果下探索做出正确的决策。然而,现实世界的城市交通无法提供足够的交互式数据来训练这些政策,因为政策的探索可能会对城市交通产生负面的影响,例如引发交通的拥堵。因此,交通仿真器作为替代方案而诞生,允许研究人员在不干扰实际交通流的情况下,测试和评估他们的rl策略。这些模拟器从交通控制策略做出的决策中获取流量动作,并在模拟器中模拟路网和车辆的状态。目前被广泛应用的交通仿真器包括sumo,cityflow等。
2、强化学习在交通流控制中的应用虽然表现出色,但由于需要经历多轮训练才能收
...【技术保护点】
1.基于松散同步的城市交通强化学习并行训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法,其特征在于:在步骤S3中,更新跨界车辆时间步信息时,以当轮训练中车辆实际行驶速度、行驶距离与预计情况的差异为依据进行调整,若实际速度比预计速度快,且行驶距离超过原有路径的10%,则相应提前跨界车辆进入相邻分区的时间步。
3.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法,其特征在于:在步骤S4中,强化学习模型向阴影节点发送车辆信息时,信息包含车辆的速度、行驶方向,以便更准确地模拟车辆在子
...【技术特征摘要】
1.基于松散同步的城市交通强化学习并行训练方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法,其特征在于:在步骤s3中,更新跨界车辆时间步信息时,以当轮训练中车辆实际行驶速度、行驶距离与预计情况的差异为依据进行调整,若实际速度比预计速度快,且行驶距离超过原有路径的10%,则相应提前跨界车辆进入相邻分区的时间步。
3.根据权利要求1所述的基于松散同步的城市交通强化学习并行训练方法,其特征在于:在步骤s4中,强化学习模型向阴影节点发送车辆信息时,信息包含车辆的速度、行驶方向,以便更准确地模拟车辆在子路网分区边界的行为,维持邻域信息的完整性。
4.根据权利要求1所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。