浮动巴士路径决策方法、系统、电子设备及介质技术方案

技术编号:35262764 阅读:14 留言:0更新日期:2022-10-19 10:23
本发明专利技术公开了一种浮动巴士路径决策方法、系统、电子设备及介质,涉及智慧交通技术领域,方法包括:初始化经验回放集,构建马尔可夫决策过程、当前值网络和目标值网络,马尔可夫决策过程包括状态空间、动作空间、奖惩函数、状态转移概率和折扣因子五元组;获取训练样本,基于训练样本建立状态动作序列;将状态动作序列输入当前值网络,得到状态动作系列对应的车辆动作,基于得到的车辆动作建立经验序列,将经验序列存入经验回放集中;利用经验回放集不断训练优化当前值网络和目标值网络,得到DQN深度神经网络,以根据获取到的目标待接送乘客的上下车地点,通过DQN深度神经网络确定目标待接送乘客的上下车地点对应车辆的目标路径。接送乘客的上下车地点对应车辆的目标路径。接送乘客的上下车地点对应车辆的目标路径。

【技术实现步骤摘要】
浮动巴士路径决策方法、系统、电子设备及介质


[0001]本专利技术涉及智慧交通
,具体涉及一种浮动巴士路径决策方法、系统、电子设备及介质。

技术介绍

[0002]随着技术的发展和城市建设,城市高速扩张发展与相对滞后的公共交通之间的矛盾愈发凸显,巴士作为公共交通的重要组成部分,每天为大量民众提供移动服务。传统巴士只有固定路线,固定上车点,会出现车辆资源分配不合理、等车时间过长、出行不便的问题。
[0003]在浮动巴士系统中,浮动巴士的行经路线和停靠站点不是固定的,而是针对客流和虚拟站点实时计算最优路径,快速进行公交运力资源动态调配,提供实时的按需服务。目前,浮动巴士的路径规划大多为先根据人流量确定车辆停靠站点,再告知乘客可以上车的位置,存在用户体验感不佳的问题。

技术实现思路

[0004]本专利技术所要解决的技术问题为:现有的浮动巴士路径规划方法基于人流量确定车辆停靠站点,导致用户体验感不佳。为解决该技术问题,本专利技术提供了一种浮动巴士路径决策方法、系统、电子设备及介质。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]一种浮动巴士路径决策方法,包括:
[0007]初始化经验回放集,构建马尔可夫决策过程,所述马尔可夫决策过程包括状态空间、动作空间、奖惩函数、状态转移概率和折扣因子五元组,其中,所述状态空间包括乘客上下车地点和车辆位置信息,所述动作空间包括路径选择和车辆可执行动作,所述车辆可执行动作包括车辆匀速行驶、车辆减速行驶、车辆到达乘客上下车地点,所述奖惩函数包括车辆匀速行驶时的奖惩值、车辆减速行驶时的奖惩值和车辆到达乘客上下车地点时的奖惩值,所述状态转移概率为车辆状态变化的概率,所述车辆状态包括车辆动作信息和车辆位置信息,所述折扣因子用于计算累计奖励,所述累计奖励代表车辆动作的长期收益;
[0008]构建两个DQN神经网络,两个所述DQN神经网络分别为当前值网络和目标值网络;
[0009]获取训练样本,所述训练样本包括待接送乘客上下车地点和当前车辆状态,根据所述训练样本和所述车辆可执行动作建立状态动作序列;
[0010]将所述状态动作序列输入所述当前值网络,通过所述当前值网络输出第一值函数,所述第一值函数为所述当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立经验序列,并将所述经验序列作为网络样本数据存入所述经验回放集中,所述经验序列包括所述状态动作序列、所述车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态;
[0011]利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到DQN
深度神经网络,以根据获取到的目标待接送乘客的上下车地点,通过所述DQN深度神经网络确定所述目标待接送乘客的上下车地点对应车辆的目标路径,所述DQN深度神经网络包括优化后的当前值网络和优化后的目标值网络。
[0012]本专利技术的有益效果是:通过设置状态转移概率为车辆状态变化的概率,使马尔可夫决策过程具有一定的随机性,使得本方法具有探索性;设置折扣因子用于计算车辆在不同动作下的长期收益,以判断车辆执行相应动作对未来的影响,使得本方法具有预测性,能够在开放、动态的环境下进行决策,应对实际中可能出现的极端情况;基于目标待接送乘客的上下车地点和当前车辆状态,根据客流实时计算最优路径,快速进行公交运力资源动态调配,为乘客提供一种实时的按需服务;车辆停车位置由目标待接送乘客的上下车地点决定,相对于传统巴士的路径规划,本方法具有上下车地点灵活、缩短了乘客等待时间、提高了乘客体验感的优点,本方法通过对公交运力资源动态调配,降低了公交车空驶率,提高了公交资源利用率,可有效减轻城市交通运输压力。
[0013]在上述技术方案的基础上,本专利技术还可以做如下改进。
[0014]进一步,所述方法还包括:
[0015]将所述目标待接送乘客的上下车地点输入所述DQN深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,将所述目标经验序列作为网络样本数据存入所述经验回放集中,所述目标经验序列包括所述目标待接送乘客的上下车地点对应的状态动作序列、车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态。
[0016]采用上述进一步方案的有益效果是:将目标待接送乘客的上下车地点对应的目标经验序列作为网络样本数据存入经验回放集中,通过引入经验回放机制,从经验回放集中随机选取网络样本数据,以不断优化网络参数,从而优化DQN深度神经网络,降低了网络样本数据之间的相关性,为提高决策出最优路径的准确率奠定了基础。
[0017]进一步,所述将所述目标待接送乘客的上下车地点输入所述DQN深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,具体包括:
[0018]将所述目标待接送乘客的上下车地点输入所述优化后的当前值网络中,通过所述优化后的当前值网络输出第一值函数,所述第一值函数为所述优化后的当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立所述目标待接送乘客的上下车地点对应的目标经验序列。
[0019]采用上述进一步方案的有益效果是:通过建立目标待接送乘客的上下车地点对应的目标经验序列,使其作为网络样本数据进行存储,便于降低仅将训练样本对应的经验序列作为网络样本数据以优化DQN深度神经网络,网络样本数据之间存在的相关性,提高目标经验序列的利用率。
[0020]进一步,所述利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到DQN深度神经网络,具体包括:
[0021]初始化所述当前值网络的初始权重θ
t
、所述目标值网络的初始权重θ

、固定时间间隔T,确定单位时间间隔和所述当前值网络的损失函数;
[0022]每隔一个单位时间间隔,从所述经验回收集中采样一个网络样本数据,采用所述
当前值网络的损失函数更新所述当前值网络的当前权重θ
t+1
,得到更新后的当前值网络,其中,所述当前值网络的当前权重θ
t+1
为:
[0023][0024]其中,为梯度算子,θ
t
表示所述当前值网络的当前权重,θ

表示所述目标值网络的当前权重,α和γ均为常数,γ表示折扣因子,t表示当前时刻,s
t
表示当前时刻车辆状态,a
t
表示当前时刻车辆执行的动作,r
t
表示当前时刻车辆状态的奖惩值,Q(s
t
,a
t
;θ
t
)为所述当前值网络输出的第一值函数,表示当前时刻车辆在状态s
t
下执行动作a...

【技术保护点】

【技术特征摘要】
1.一种浮动巴士路径决策方法,其特征在于,包括:初始化经验回放集,构建马尔可夫决策过程,所述马尔可夫决策过程包括状态空间、动作空间、奖惩函数、状态转移概率和折扣因子五元组,其中,所述状态空间包括乘客上下车地点和车辆位置信息,所述动作空间包括路径选择和车辆可执行动作,所述车辆可执行动作包括车辆匀速行驶、车辆减速行驶、车辆到达乘客上下车地点,所述奖惩函数包括车辆匀速行驶时的奖惩值、车辆减速行驶时的奖惩值和车辆到达乘客上下车地点时的奖惩值,所述状态转移概率为车辆状态变化的概率,所述车辆状态包括车辆动作信息和车辆位置信息,所述折扣因子用于计算累计奖励,所述累计奖励代表车辆动作的长期收益;构建两个DQN神经网络,两个所述DQN神经网络分别为当前值网络和目标值网络;获取训练样本,所述训练样本包括待接送乘客上下车地点和当前车辆状态,根据所述训练样本和所述车辆可执行动作建立状态动作序列;将所述状态动作序列输入所述当前值网络,通过所述当前值网络输出第一值函数,所述第一值函数为所述当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立经验序列,并将所述经验序列作为网络样本数据存入所述经验回放集中,所述经验序列包括所述状态动作序列、所述车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态;利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到DQN深度神经网络,以根据获取到的目标待接送乘客的上下车地点,通过所述DQN深度神经网络确定所述目标待接送乘客的上下车地点对应车辆的目标路径,所述DQN深度神经网络包括优化后的当前值网络和优化后的目标值网络。2.根据权利要求1所述的浮动巴士路径决策方法,其特征在于,所述方法还包括:将所述目标待接送乘客的上下车地点输入所述DQN深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,将所述目标经验序列作为网络样本数据存入所述经验回放集中,所述目标经验序列包括所述目标待接送乘客的上下车地点对应的状态动作序列、车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态。3.根据权利要求2所述的浮动巴士路径决策方法,其特征在于,所述将所述目标待接送乘客的上下车地点输入所述DQN深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,具体包括:将所述目标待接送乘客的上下车地点输入所述优化后的当前值网络中,通过所述优化后的当前值网络输出第一值函数,所述第一值函数为所述优化后的当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立所述目标待接送乘客的上下车地点对应的目标经验序列。4.根据权利要求1至3中任一项所述的浮动巴士路径决策方法,其特征在于,所述利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到DQN深度神经网络,具体包括:初始化所述当前值网络的初始权重θ
t
、所述目标值网络的初始权重θ

、固定时间间隔T,确定单位时间间隔和所述当前值网络的损失函数;
每隔一个单位时间间隔,从所述经验回收集中采样一个网络样本数据,采用所述当前值网络的损失函数更新所述当前值网络的当前权重θ
t+1
,得到更新后的当前值网络,其中,所述当前值网络的当前权重θ
t+1
为:其中,为梯度算子,θ
t
表示所述当前值网络的当前权重,θ

表示所述目标值网络的当前权重,α和γ均为常数,γ表示折扣因子,t表示当前时刻,s
t
表示当前时刻车辆状态,a
t
表示当前时刻车辆执行的动作,r
t
表示当前时刻车辆状态的奖惩值,Q(s
t
,a
t
;θ
t
)为所述当前值网络输出的第一值函数,表示当前时刻车辆在状态s
t
下执行动作a
t
的预计累计奖励值;t+1表示当前时刻加上所述单位时间间隔之后所得到的时刻,s
...

【专利技术属性】
技术研发人员:刘玮邵俊杰张彦铎卢涛李晓林陈灯栗娟张俊杰张飞张鹏华鑫
申请(专利权)人:武汉工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1