一种面向疫情防控的公交车在途强化学习速度控制方法技术

技术编号:34632556 阅读:7 留言:0更新日期:2022-08-24 15:05
本发明专利技术公开一种面向疫情防控的公交车在途强化学习速度控制方法,该方法包括:通过路侧设施感知公交线路道路交通实时信息,动态获取公交车实时运行信息,根据真实的公交车线路建立时间连续的公交车运行仿真系统,为强化学习训练提供拟真环境;建立公交车在途行驶状态转移模型,基于仿真系统建立强化学习框架,在强化学习框架中利用神经网络输出连续空间的具体动作,该神经网络根据公交车运行的状态计算公交车到达下一站点的行驶速度,对公交车在途运行速度进行有效控制,最终使公交车之间的车头时距更均匀,进而使得乘客在多辆公交车中的分布更均衡,从而降低了公交车厢内的拥挤情况,均衡车辆满载率,在疫情防控的环境下具有较好的运行效果。较好的运行效果。较好的运行效果。

【技术实现步骤摘要】
一种面向疫情防控的公交车在途强化学习速度控制方法


[0001]本专利技术涉及交通控制,仿真模拟,强化学习领域,特别是涉及一种面向疫情防控的公交车在途强化学习速度控制方法。

技术介绍

[0002]传染病学研究证实,传染性病毒容易通过公共交通出行活动在人群中大规模传播。除了少数例外,全世界的公共交通乘客都受到了COVID

19大流行的严重打击。现有研究评估乘客疫情条件下在公共交通网络中的行为,并评估他们将如何应对流感大流行的未来变化为更好疫情防控,需要对疫情在城市公共交通系统的传播机理进行建模研究。COVID

19大流行对公共交通产生了广泛的影响。由于采取了旨在控制这种疾病的行动和建议,公共交通的乘客数量急剧下降,人们对这种交通方式的看法变得更加消极,并且转向了个人交通方式。因此,预计旅行者的行为会发生变化,以尽量减少接触病毒的机会。但是公共交通作为一种重要的运输方式,如果不能够充分利用,将会对满足人们的出行需求产生较大影响。公交车上的乘客数量在一定程度上反映了疫情传播的风险,通过平衡不同公交车上的乘客数量,让乘客的分布更加均匀,可以提供乘客对于公共交通的满意度,提高乘客乘坐公交车的意愿,均衡不同公交车辆的满载率,从客观上降低了疫情传播的风险。
[0003]强化学习是近年来人工智能研究领域的一个重要领域,具有对于研究问题的普适性。通过代理与环境进行交互来训练模型,计算机仿真程序为强化学习解决实际问题提供了便利的环境,训练后的模型在实际使用中具有较高的反馈速度,因此对于解决以疫情防控为目标的公交车在途速度控制有得天独厚的优势。

技术实现思路

[0004]本专利技术的目的是为了克服现有技术中的不足,提供一种有助于疫情防控的公交车运行速度实时控制方法。
[0005]本专利技术的目的是通过以下技术方案实现的:
[0006]一种面向疫情防控的公交车在途强化学习速度控制方法,包括如下步骤:
[0007]S1、针对疫情防控设定优化目标:使每辆公交车上的乘客数量平均,降低拥挤程度;
[0008]S2、通过交通信息检测器获取公交车运行实时信息以及道路交通实时情况;根据真实公交车运行网络,建立时间连续的公交车运行仿真系统;
[0009]S3、建立马尔可夫模型,确定目标函数,搭建深度确定性策略梯度的强化学习框架;
[0010]S4、在公交车运行仿真系统中进行训练,对强化学习框架中的神经网络参数进行优化学习;每当道路上的某一公交车进入公交车站时,选择该公交车的前后5辆车进行编组,选择小组内公交车信息作为状态参数传入强化学习框架中计算该公交车下一段路程的运行速度,在该车进入下一车站时,计算分组中所有车辆车头时距的方差作为上次控制结
果的奖励反馈;
[0011]S5、在公交车运行仿真系统中重复S4中对强化学习框架中神经网络的参数进行训练优化的过程;保存训练结束后的神经网络结构和参数;在公交车运行仿真系统中对S4训练完成的神经网络控制效果进行评价:当被控制的公交车进站后,选取该车前后5辆车编组,每组内公交车状态信息作为输入传进训练完成保存的神经网络,通过神经网络计算该公交车在下一站前的运行速度,与不进行控制的情况下进行对比,得到乘客在所有公交车内的人数分布更加均匀。
[0012]进一步的,步骤S2中基于智能车载系统技术以及智能路侧系统技术,通过公交车运行仿真系统模拟真实的公交车运行路线,依照公交站点将公交车运行线路拆分为若干个路段;对通过交通检测器采集到的公交车运营数据进行统计回归分析,针对不同路段历史交通拥堵情况以及道路通行状况在公交车运行仿真系统中针对不同路段设置不同的公交车最大运行速度限制,在公交车运行仿真系统中,按照统计回归分析得出的分布在不同路段随机设置最大运行速度限制,随机的最大运行速度限制能够反应不同路段真实道路交通情况差异。
[0013]进一步的,公交车运行仿真系统每秒更新被控制线路上的公交车相关的信息,包括公交车的运行状态、公交车位置及其巡航速度。
[0014]进一步的,在步骤S3中,选择深度确定性策略梯度的强化学习框架,一方面保证神经网络最终输出结果连续性,更符合公交车运行速度是连续的而不是离散的实际情况;另一方面采用actor

critic框架,并且引入了经验回放机制,降低若干次训练数据后的连续性,提高了训练结果的鲁棒性。
[0015]进一步的,步骤S3中建立的强化学习框架包括四个网络,分别是Actor现实网络,Actor估计网络,Critic现实网络,Critic估计网络;Actor现实网络和Actor估计网络负责通过输入状态变量获得一个确定的动作,建立的神经网络结构如下:神经网络的输入为环境的状态;神经网络的输出为智能体将要采取的动作:Actor现实网络接受的输入是s_,代表的是下一环境的状态;Actor估计网络接受的输入是s,代表的是当前环境的状态,训练过程中对Actor估计网络进行参数优化,若干步训练后更新Actor现实网络参数;
[0016]Critic现实网络和Critic估计网络负责对当前状态和采取动作进行评价;Critic现实网络和Critic估计网络的输入量都是仿真环境状态变量与上次决策采取的动作,输出量是q,指的是对应仿真环境状态与动作条件下所获得的评分value值;Critic估计网络接受的输入是[s,a],代表的是仿真环境当前时刻状态变量与对应动作;Critic现实网络接受的输入是[s_,a_],代表的是仿真环境下一时刻状态变量与对应动作;
[0017]Actor估计网络的参数优化过程结合Critic现实网络和Critic估计网络进行,Actor估计网络的参数优化过程首先通过当前环境获得Actor估计网络预测的动作,再对预测动作增加随机噪音干扰,防止过拟合,将增加噪音后的动作传入Critic估计网络获得其评分Value,梯度反向传播优化方向为最大化评分Value值。
[0018]进一步的,在步骤S4中,当有待控制的公交车进入任意站点后,启动是否进行训练的判定,当该车前后公交车数量≥5辆车,选择距离该车最近的5辆车编组,统计组内车辆运行状态,包括:5辆公交车的运行速度:speed_1,speed_2,speed_3,speed_4,speed_5,5辆公交车之间的车头时距:headway_1,headway_2,headway_3,headway_4;以及5辆公交车之间
的站点数量:stopnum_1,stopnum_2,stopnum_3,stopnum_4,该车在车组内的位置num,将上述14条数据转化为一维向量,作为初始状态参数state传入强化学习框架,其中强化学习框架中的Actor估计网络计算该车从站点出发到达下一站点之前的最优行驶速度,在不超过该路段的最大允许行驶速度前提下,令该公交车按照actor估计网络计算的最优行驶速度前往下一站点;当该公交车以上述行驶速度到达下一站点时,选取该车最近的5辆公交车编组,计算组内5辆公交车预计车本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向疫情防控的公交车在途强化学习速度控制方法,其特征在于,包括如下步骤:S1、针对疫情防控设定优化目标:使每辆公交车上的乘客数量平均,降低拥挤程度;S2、通过交通信息检测器获取公交车运行实时信息以及道路交通实时情况;根据真实公交车运行网络,建立时间连续的公交车运行仿真系统;S3、建立马尔可夫模型,确定目标函数,搭建深度确定性策略梯度的强化学习框架;S4、在公交车运行仿真系统中进行训练,对强化学习框架中的神经网络参数进行优化学习;每当道路上的某一公交车进入公交车站时,选择该公交车的前后5辆车进行编组,选择小组内公交车信息作为状态参数传入强化学习框架中计算该公交车下一段路程的运行速度,在该车进入下一车站时,计算分组中所有车辆车头时距的方差作为上次控制结果的奖励反馈;S5、在公交车运行仿真系统中重复S4中对强化学习框架中神经网络的参数进行训练优化的过程;保存训练结束后的神经网络结构和参数;在公交车运行仿真系统中对S4训练完成的神经网络控制效果进行评价:当被控制的公交车进站后,选取该车前后5辆车编组,每组内公交车状态信息作为输入传进训练完成保存的神经网络,通过神经网络计算该公交车在下一站前的运行速度,与无控制的情况下进行对比,得到乘客在所有公交车内的人数分布更加均匀。2.根据权利要求1所述的面向疫情防控的公交车在途强化学习速度控制方法,其特征在于,步骤S2中基于智能车载系统技术以及智能路侧系统技术,通过公交车运行仿真系统模拟真实的公交车运行路线,依照公交站点将公交车运行线路拆分为若干个路段;对通过交通检测器采集到的公交车运营数据进行统计回归分析,针对不同路段历史交通拥堵情况以及道路通行状况在公交车运行仿真系统中针对不同路段设置不同的公交车最大运行速度限制,在公交车运行仿真系统中,按照统计回归分析得出的分布在不同路段随机设置最大运行速度限制,随机的最大运行速度限制能够反应不同路段真实道路交通情况差异。3.根据权利要求1所述的面向疫情防控的公交车在途强化学习速度控制方法,其特征在于,公交车运行仿真系统每秒更新被控制线路上的公交车相关的信息,包括公交车的运行状态、公交车位置及其巡航速度。4.根据权利要求1所述的面向疫情防控的公交车在途强化学习速度控制方法,其特征在于,在步骤S3中,选择深度确定性策略梯度的强化学习框架,一方面保证神经网络最终输出结果连续性,更符合公交车运行速度是连续的而不是离散的实际情况;另一方面采用actor

critic框架,并且引入了经验回放机制,降低若干次训练数据后的连续性,提高了训练结果的鲁棒性。5.根据权利要求1所述的面向疫情防控的公交车在途强化学习速度控制方法,其特征在于,步骤S3中建立的强化学习框架包括四个网络,分别是Actor现实网络,Actor估计网络,Critic现实网络,Critic估计网络;Actor现实网络和Actor估计网络负责通过输入状态变量获得一个确定的动作,建立的神经网络结构如下:神经网络的输入为环境的状态;神经网络的输出为智能体将要采取的动作:Actor现实网络接受的输入是s_,代表的是下一环境的状态;Actor估计网络接受的输入是s,代表的是当前环境的状态,训练过程中对Actor估计网络进行参数优化,若干步训练后更新Actor现...

【专利技术属性】
技术研发人员:柯水平李哲孙峣白子建郑利刘亚帝齐钦申婵王志攀赵家发张磊薛冰冰李豹于洋赵晓磊崔力中
申请(专利权)人:天津市政工程设计研究总院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1