一种基于城市公共交通资源联合调度方法技术

技术编号:27498052 阅读:17 留言:0更新日期:2021-03-02 18:20
本发明专利技术提供一种基于城市公共交通资源联合调度方法,聚焦于公交车系统和共享单车系统,在时空预测的基础上使用强化学习长期的最优调度以及协同调度策略,能够实现两者之间的协同调度,解决可能会出现的局部贪心问题,当某种交通服务临时不可用或不适用时,能够及时调度其他交通资源满足用户的出行需求。该方法依据已记录的不同时间地点下人群流动的数据和各类交通工具承载的人流变化,预先构造出一个随时间变化的人群乘坐交通工具的需求流量图;然后,将当前车站状态和未来预测的流量图当作当前系统的状态,利用强化学习技术来对当前多种交通系统进行协同高效的调度。前多种交通系统进行协同高效的调度。前多种交通系统进行协同高效的调度。

【技术实现步骤摘要】
一种基于城市公共交通资源联合调度方法


[0001]本专利技术涉及人工智能领域,尤其涉及一种具有人流预测方法以及交通资源联合调度的强化学习方法。

技术介绍

[0002]近年来,现代城市的交通拥堵问题日益成为居民的心病。如百度交通报告所示,北京上下班高峰时段的通勤压力指数达到惊人的1.973,导致出行时间延长,车辆排队增多。以往的研究表明,通过合理的调度,例如重新调度自行车共享系统和优化公交运输系统,可以在不消耗多余资源的情况下显著提高交通效率。
[0003]经本专利技术人研究发现,仍有两个缺点限制了调度系统的性能:(1)只考虑短时间内的单一调度,而忽略了首次交通调度后交通资源重分布现象;(2)当前调度系统只关注一类交通调度。城市公共交通的多模式特性在很大程度上还没有得到充分的利用。因此,如何基于实时的交通状况,联合多类交通系统进行联合调度优化,从而为市民提供一体化的更好的出行体验,以及缓解交通拥堵至关重要。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种基于城市公共交通资源联合调度方法,其特征在于,包括:
[0005]步骤1、依据已记录的不同时间地点下人群流动的数据和各类交通工具,承载的人流流动数据,预先构造出一个随时间变化的人群乘坐交通工具的交通流量图,对于公交车和共享单车的每个站点,记录其每个时间段的流入和流出量;
[0006]步骤2、在构建的交通流量图中,为每个地点生成一个时序的流量变化序列,使用机器学习技术,并针对不同交通构建出人流预测模型,然后将该流量变化序列和相应的流量流动相关的数据输入到构建的人流预测模型中,从而预先训练得到一个具有预测人流去向能力的预测模型;最后将实时统计的流量变化序列输入到人流预测模型中,得到未来时刻不同地点的流量流动图;
[0007]步骤3、获取当前各个地点的交通资源状态,将其和预测的未来时刻的流量流动图一同输入到基于强化学习的联合调度系统中,为每个地点构造相关的调度状态和全局的流量状态输入到强化学习调度系统中得到相应的交通工具的调度动作,不断优化调度动作直至最优。
[0008]进一步的,步骤2中预先构建的人群乘坐交通流量的人流预测模型,包括:
[0009]对获取的各个地点的各类交通工具的流量变化序列进行预处理;
[0010]根据各类交通流量的特点选取对应的流量预测模型,流量变化稳定,即每日交通流量变化相对总流量小于第一预定阈值,这些稳定的交通类采用分层预测模型;
[0011]对于流动变化具有时序性的交通类,采用具有时序敏感性的预测模型;
[0012]同时考虑不同交通流量预测系统之间的协同关系,将不同系统的预测信息嵌入到
不同类预测系统中协同预测。
[0013]进一步的,具体包括:
[0014]对于公交车系统采用分层预测模型;
[0015]对于共享单车的流量变化代入带有长短期记忆LSTM的预测模型;
[0016]在共享单车的调度系统中引入周围公交车调度的状态信息。
[0017]进一步的,所述步骤3中基于强化学习的联合交通调度系统是预先构建的,包括步骤:
[0018]对公交车系统进行强化学习调度建模,定义公交车的状态包括四部分:
[0019]e)对于公交站点的观测,其中b1,b2分别表示上一班次公交车从两个方向经过此车站的时间间隔,和表示所预测未来交通流入量和流出量;t=1......L,t表示L表示未来时刻;
[0020]f)对于同一班线其他公交车的状态信息(d
j
,e
j
,f
j
,v
j
)和当前公交车的状态信息(d1,e1,f1,v1);其中d
j
表示当前第j个公交车位置,e
j
,f
j
分别表示第j个公交车当前载客量和剩余可承载多少客量;v
j
表示第j个公交车当前的操作类型;
[0021]g)系统的信息H,包括天气、温度、相邻两站之间的时间距离和地理距离;
[0022]h)当前路线公交车车站在其他公交车路线的状态O。
[0023]进一步的,还定义公交车系统的公交车动作、奖励和停止条件如下:
[0024]动作:一辆公交车的动作有两个,向终点方向开,向起点方向开,在终点或者起点停;
[0025]奖励:对于公交车强化学习,定义奖励机制如下:
[0026]d)公交车每次从A到B行程,奖励为减少的等待时间,惩罚为到A的行驶时间,车行驶数目;
[0027]e)公交车调转方向,转向操作惩罚为一个常数C,以及l*当前乘客数量,l为惩罚系数;
[0028]f)公交车不开车,没有奖励和惩罚;
[0029]停止条件:某一用户等了p个时间片段未等到公交车或者完成一个完整的周期。
[0030]进一步的,对共享单车系统进行强化学习调度建模,定义共享单车的状态包括四部分:共享单车调度
[0031]a)共享单车车站的状态其中b1,b2分别表示当前单车可用单车量和可停放单车量,和表示所预测未来单车流入量和流出量;考虑了站点间的单车流动信息,并使用L个矩阵G
t
表示未来L段时间中所预测站点间单车的流动网络;对其进行编码(encoder)得到g
t
∈R
d
代表未来t时刻的预测的交通流量低维状态表示,作为对未来t时刻站点的详细预测信息;于是得到L个g
t
向量;
[0032]b)同一个聚类中其他调度车(d
j
,e
j
,f
j
,v
j
)和当前调度车的状态信息(d1,e1,f1,v1);其中d
j
表示当前第j个调度车位置,e
j
,f
j
分别表示第j个调度车当前已经搬运单车量和剩余可承载单车量;
[0033]c)系统的状态H,包括天气、温度、调度车的数量信息;
[0034]d)共享单车车站在其他(公交)交通系统中的状态O。
[0035]进一步的,还定义共享单车系统共享单车的动作、奖励和停止条件如下:
[0036]动作:定义为当前调度车将要在哪个共享单车站点卸载或者装载单车以及相应操作的数量;这里用一个(d1,v1)向量表示其位置以及详细的操作单车数目;
[0037]奖励:整个周期的用户使用单车次数总和;
[0038]停止条件:某一用户等了p个时间片段未等到公交车或者完成一个完整的周期。
[0039]进一步的,对于深度强化学习算法DDPG其优化迭代过程如下,具体的输入为公交车调度和共享单车系统中所定义的状态集合,算法输出为调度的动作a
t

[0040]1)初始化Actor-Critic网络的参数θ
Q
和θ
μ

[0041]2)Actor根据动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于城市公共交通资源联合调度方法,其特征在于,包括:步骤1、依据已记录的不同时间地点下人群流动的数据和各类交通工具,承载的人流流动数据,预先构造出一个随时间变化的人群乘坐交通工具的交通流量图,对于公交车和共享单车的每个站点,记录其每个时间段的流入和流出量;步骤2、在构建的交通流量图中,为每个地点生成一个时序的流量变化序列,使用机器学习技术,并针对不同交通构建出人流预测模型,然后将该流量变化序列和相应的流量流动相关的数据输入到构建的人流预测模型中,从而预先训练得到一个具有预测人流去向能力的预测模型;最后将实时统计的流量变化序列输入到人流预测模型中,得到未来时刻不同地点的流量流动图;步骤3、获取当前各个地点的交通资源状态,将其和预测的未来时刻的流量流动图一同输入到基于强化学习的联合调度系统中,为每个地点构造相关的调度状态和全局的流量状态输入到强化学习调度系统中得到相应的交通工具的调度动作,不断优化调度动作直至最优。2.根据权利要求1所述的一种基于城市公共交通资源联合调度方法,其特征在于,步骤2中预先构建的人群乘坐交通流量的人流预测模型,包括:对获取的各个地点的各类交通工具的流量变化序列进行预处理;根据各类交通流量的特点选取对应的流量预测模型,流量变化稳定,即每日交通流量变化相对总流量小于第一预定阈值,这些稳定的交通类采用分层预测模型;对于流动变化具有时序性的交通类,采用具有时序敏感性的预测模型;同时考虑不同交通流量预测系统之间的协同关系,将不同系统的预测信息嵌入到不同类预测系统中协同预测。3.根据权利要求2所述的一种基于城市公共交通资源联合调度方法,其特征在于,具体包括:对于公交车系统采用分层预测模型;对于共享单车的流量变化代入带有长短期记忆LSTM的预测模型;在共享单车的调度系统中引入周围公交车调度的状态信息。4.根据权利要求1所述的一种基于城市公共交通资源联合调度方法,其特征在于,所述步骤3中基于强化学习的联合交通调度系统是预先构建的,包括步骤:对公交车系统进行强化学习调度建模,定义公交车的状态包括四部分:a)对于公交站点的观测,其中b1,b2分别表示上一班次公交车从两个方向经过此车站的时间间隔,和表示所预测未来交通流入量和流出量;t=1
……
L,t表示L表示未来时刻;b)对于同一班线其他公交车的状态信息(d
j
,e
j
,f
j
,v
j
)和当前公交车的状态信息(d1,e1,f1,v1);其中d
j
表示当前第j个公交车位置,e
j
,f
j
分别表示第j个公交车当前载客量和剩余可承载多少客量;v
j
表示第j个公交车当前的操作类型;c)系统的信息H,包括天气,温度,相邻两站之间的时间距离和地理距离;d)当前路线公交车车站在其他公交车路线的状态O。5.根据权利要求4所述的一种基于城市公共交通资源联合调度方法,其特征在于,还定
义公交车系统的公交车动作、奖励和停止条件如下:动作:一辆公交车的动作有两个,向终点方向开,向起点方向开,在终点或者起点停;奖励:对于公交车强化学习,定义奖励机制如下:a)公交车每次从A到B行程,奖励为减少的等待时间,惩罚为到A的行驶时间,车行驶数目;b)公交车调转方向,转向操作惩罚为一个常数C,以及l*当前乘客数量,l为惩罚系数;c)公交车不开车,没有奖励和惩罚;停止条件:某一用户等了p个时间片段未等到公交车或者完成一个完整的周期。6.根据权利要求1所述的一种基于城市公共交通资源联合调度方法,其特征在于,对共享单车系统进行强化学习调度建模,定义共享单车的状态包括四部分:共享单车调度a)共享单车车站的状态其中b1,b2分别表示当前单车可用单车量和可停放单车量,和表示...

【专利技术属性】
技术研发人员:陈恩红刘淇梁先锋吴李康陈卓刘杨于润龙侯旻武晗叶雨扬
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1