【技术实现步骤摘要】
浮动巴士路径决策方法、系统、电子设备及介质
[0001]本专利技术涉及智慧交通
,具体涉及一种浮动巴士路径决策方法、系统、电子设备及介质。
技术介绍
[0002]随着技术的发展和城市建设,城市高速扩张发展与相对滞后的公共交通之间的矛盾愈发凸显,巴士作为公共交通的重要组成部分,每天为大量民众提供移动服务。传统巴士只有固定路线,固定上车点,会出现车辆资源分配不合理、等车时间过长、出行不便的问题。
[0003]在浮动巴士系统中,浮动巴士的行经路线和停靠站点不是固定的,而是针对客流和虚拟站点实时计算最优路径,快速进行公交运力资源动态调配,提供实时的按需服务。目前,浮动巴士的路径规划大多为先根据人流量确定车辆停靠站点,再告知乘客可以上车的位置,存在用户体验感不佳的问题。
技术实现思路
[0004]本专利技术所要解决的技术问题为:现有的浮动巴士路径规划方法基于人流量确定车辆停靠站点,导致用户体验感不佳。为解决该技术问题,本专利技术提供了一种浮动巴士路径决策方法、系统、电子设备及介质。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]一种浮动巴士路径决策方法,包括:
[0007]初始化经验回放集,构建马尔可夫决策过程,所述马尔可夫决策过程包括状态空间、动作空间、奖惩函数、状态转移概率和折扣因子五元组,其中,所述状态空间包括乘客上下车地点和车辆位置信息,所述动作空间包括路径选择和车辆可执行动作,所述车辆可执行动作包括车辆匀速行驶、车辆减速行驶、车辆到达乘客上下
【技术保护点】
【技术特征摘要】
1.一种浮动巴士路径决策方法,其特征在于,包括:初始化经验回放集,构建马尔可夫决策过程,所述马尔可夫决策过程包括状态空间、动作空间、奖惩函数、状态转移概率和折扣因子五元组,其中,所述状态空间包括乘客上下车地点和车辆位置信息,所述动作空间包括路径选择和车辆可执行动作,所述车辆可执行动作包括车辆匀速行驶、车辆减速行驶、车辆到达乘客上下车地点,所述奖惩函数包括车辆匀速行驶时的奖惩值、车辆减速行驶时的奖惩值和车辆到达乘客上下车地点时的奖惩值,所述状态转移概率为车辆状态变化的概率,所述车辆状态包括车辆动作信息和车辆位置信息,所述折扣因子用于计算累计奖励,所述累计奖励代表车辆动作的长期收益;构建两个DQN神经网络,两个所述DQN神经网络分别为当前值网络和目标值网络;获取训练样本,所述训练样本包括待接送乘客上下车地点和当前车辆状态,根据所述训练样本和所述车辆可执行动作建立状态动作序列;将所述状态动作序列输入所述当前值网络,通过所述当前值网络输出第一值函数,所述第一值函数为所述当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立经验序列,并将所述经验序列作为网络样本数据存入所述经验回放集中,所述经验序列包括所述状态动作序列、所述车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态;利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到DQN深度神经网络,以根据获取到的目标待接送乘客的上下车地点,通过所述DQN深度神经网络确定所述目标待接送乘客的上下车地点对应车辆的目标路径,所述DQN深度神经网络包括优化后的当前值网络和优化后的目标值网络。2.根据权利要求1所述的浮动巴士路径决策方法,其特征在于,所述方法还包括:将所述目标待接送乘客的上下车地点输入所述DQN深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,将所述目标经验序列作为网络样本数据存入所述经验回放集中,所述目标经验序列包括所述目标待接送乘客的上下车地点对应的状态动作序列、车辆动作、车辆执行所述车辆动作后的奖惩值、车辆执行所述车辆动作后的状态。3.根据权利要求2所述的浮动巴士路径决策方法,其特征在于,所述将所述目标待接送乘客的上下车地点输入所述DQN深度神经网络,得到所述目标待接送乘客的上下车地点对应的目标经验序列,具体包括:将所述目标待接送乘客的上下车地点输入所述优化后的当前值网络中,通过所述优化后的当前值网络输出第一值函数,所述第一值函数为所述优化后的当前值网络根据所述状态动作序列输出的车辆执行每个可执行动作对应的预测累计奖励值,基于所述车辆执行每个可执行动作对应的预测累计奖励值中最大的预测累计奖励值对应的车辆动作,建立所述目标待接送乘客的上下车地点对应的目标经验序列。4.根据权利要求1至3中任一项所述的浮动巴士路径决策方法,其特征在于,所述利用所述经验回放集不断训练优化所述当前值网络和所述目标值网络,得到DQN深度神经网络,具体包括:初始化所述当前值网络的初始权重θ
t
、所述目标值网络的初始权重θ
‑
、固定时间间隔T,确定单位时间间隔和所述当前值网络的损失函数;
每隔一个单位时间间隔,从所述经验回收集中采样一个网络样本数据,采用所述当前值网络的损失函数更新所述当前值网络的当前权重θ
t+1
,得到更新后的当前值网络,其中,所述当前值网络的当前权重θ
t+1
为:其中,为梯度算子,θ
t
表示所述当前值网络的当前权重,θ
‑
表示所述目标值网络的当前权重,α和γ均为常数,γ表示折扣因子,t表示当前时刻,s
t
表示当前时刻车辆状态,a
t
表示当前时刻车辆执行的动作,r
t
表示当前时刻车辆状态的奖惩值,Q(s
t
,a
t
;θ
t
)为所述当前值网络输出的第一值函数,表示当前时刻车辆在状态s
t
下执行动作a
t
的预计累计奖励值;t+1表示当前时刻加上所述单位时间间隔之后所得到的时刻,s
...
【专利技术属性】
技术研发人员:刘玮,邵俊杰,张彦铎,卢涛,李晓林,陈灯,栗娟,张俊杰,张飞,张鹏,华鑫,
申请(专利权)人:武汉工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。