一种面向疫情防控的公交车在途强化学习速度控制方法技术

技术编号：34632556 阅读：20 留言：0更新日期：2022-08-24 15:05

本发明专利技术公开一种面向疫情防控的公交车在途强化学习速度控制方法，该方法包括：通过路侧设施感知公交线路道路交通实时信息，动态获取公交车实时运行信息，根据真实的公交车线路建立时间连续的公交车运行仿真系统，为强化学习训练提供拟真环境；建立公交车在途行驶状态转移模型，基于仿真系统建立强化学习框架，在强化学习框架中利用神经网络输出连续空间的具体动作，该神经网络根据公交车运行的状态计算公交车到达下一站点的行驶速度，对公交车在途运行速度进行有效控制，最终使公交车之间的车头时距更均匀，进而使得乘客在多辆公交车中的分布更均衡，从而降低了公交车厢内的拥挤情况，均衡车辆满载率，在疫情防控的环境下具有较好的运行效果。较好的运行效果。较好的运行效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向疫情防控的公交车在途强化学习速度控制方法

[0001]本专利技术涉及交通控制，仿真模拟，强化学习领域，特别是涉及一种面向疫情防控的公交车在途强化学习速度控制方法。

技术介绍

[0002]传染病学研究证实，传染性病毒容易通过公共交通出行活动在人群中大规模传播。除了少数例外，全世界的公共交通乘客都受到了COVID
‑
19大流行的严重打击。现有研究评估乘客疫情条件下在公共交通网络中的行为，并评估他们将如何应对流感大流行的未来变化为更好疫情防控，需要对疫情在城市公共交通系统的传播机理进行建模研究。COVID
‑
19大流行对公共交通产生了广泛的影响。由于采取了旨在控制这种疾病的行动和建议，公共交通的乘客数量急剧下降，人们对这种交通方式的看法变得更加消极，并且转向了个人交通方式。因此，预计旅行者的行为会发生变化，以尽量减少接触病毒的机会。但是公共交通作为一种重要的运输方式，如果不能够充分利用，将会对满足人们的出行需求产生较大影响。公交车上的乘客数量在一定程度上反映了疫情传播的风险，通过平衡不同...

【技术保护点】

【技术特征摘要】
1.一种面向疫情防控的公交车在途强化学习速度控制方法，其特征在于，包括如下步骤：S1、针对疫情防控设定优化目标：使每辆公交车上的乘客数量平均，降低拥挤程度；S2、通过交通信息检测器获取公交车运行实时信息以及道路交通实时情况；根据真实公交车运行网络，建立时间连续的公交车运行仿真系统；S3、建立马尔可夫模型，确定目标函数，搭建深度确定性策略梯度的强化学习框架；S4、在公交车运行仿真系统中进行训练，对强化学习框架中的神经网络参数进行优化学习；每当道路上的某一公交车进入公交车站时，选择该公交车的前后5辆车进行编组，选择小组内公交车信息作为状态参数传入强化学习框架中计算该公交车下一段路程的运行速度，在该车进入下一车站时，计算分组中所有车辆车头时距的方差作为上次控制结果的奖励反馈；S5、在公交车运行仿真系统中重复S4中对强化学习框架中神经网络的参数进行训练优化的过程；保存训练结束后的神经网络结构和参数；在公交车运行仿真系统中对S4训练完成的神经网络控制效果进行评价：当被控制的公交车进站后，选取该车前后5辆车编组，每组内公交车状态信息作为输入传进训练完成保存的神经网络，通过神经网络计算该公交车在下一站前的运行速度，与无控制的情况下进行对比，得到乘客在所有公交车内的人数分布更加均匀。2.根据权利要求1所述的面向疫情防控的公交车在途强化学习速度控制方法，其特征在于，步骤S2中基于智能车载系统技术以及智能路侧系统技术，通过公交车运行仿真系统模拟真实的公交车运行路线，依照公交站点将公交车运行线路拆分为若干个路段；对通过交通检测器采集到的公交车运营数据进行统计回归分析，针对不同路段历史交通拥堵情况以及道路通行状况在公交车运行仿真系统中针对不同路段设置不同的公交车最大运行速度限制，在公交车运行仿真系统中，按照统计回归分析得出的分布在不同路段随机设置最大运行速度限制，随机的最大运行速度限制能够反应不同路段真实道路交通情况差异。3.根据权利要求1所述的面向疫情防控的公交车在途强化学习速度控制方法，其特征在于，公交车运行仿真系统每秒更新被控制线路上的公交车相关的信息，包括公交车的运行状态、公交车位置及其巡航速度。4.根据权利要求1所述的面向疫情防控的公交车在途强化学习速度控制方法，其特征在于，在步骤S3中，选择深度确定性策略梯度的强化学习框架，一方面保证神经网络最终输出结果连续性，更符合公交车运行速度是连续的而不是离散的实际情况；另一方面采用actor
‑
critic框架，并且引入了经验回放机制，降低若干次训练数据后的连续性，提高了训练结果的鲁棒性。5.根据权利要求1所述的面向疫情防控的公交车在途强化学习速度控制方法，其特征在于，步骤S3中建立的强化学习框架包括四个网络，分别是Actor现实网络，Actor估计网络，Critic现实网络，Critic估计网络；Actor现实网络和Actor估计网络负责通过输入状态变量获得一个确定的动作，建立的神经网络结构如下：神经网络的输入为环境的状态；神经网络的输出为智能体将要采取的动作：Actor现实网络接受的输入是s_，代表的是下一环境的状态；Actor估计网络接受的输入是s，代表的是当前环境的状态，训练过程中对Actor估计网络进行参数优化，若干步训练后更新Actor现...

【专利技术属性】
技术研发人员：柯水平，李哲，孙峣，白子建，郑利，刘亚帝，齐钦，申婵，王志攀，赵家发，张磊，薛冰冰，李豹，于洋，赵晓磊，崔力中，
申请(专利权)人：天津市政工程设计研究总院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人