基于强化学习的车辆共享服务订单派遣方法及系统技术方案

技术编号:27845181 阅读:16 留言:0更新日期:2021-03-30 12:48
本发明专利技术提供一个基于强化学习的车辆共享服务订单派遣方法及系统,包括收集乘客的信息和车辆的信息,根据乘客的需求,根据乘客的起点和终点同时进行相应限制,搜索满足乘客时空约束的车辆得到候选车辆集合;计算所有候选车辆集合中的车辆与当前乘客之间的派遣因素,包括车辆的绕路比、座位利用率、车辆的隐藏收益和未来收益;按照车辆的绕路比对所有候选车辆进行升序排列,选择最终候选车辆集合;将每一辆车的派遣因素输入至深度评估网络中进行评估,选择评估结果最优的车辆返回给乘客和车辆,如果深度评估网络训练完成,则结束当前次评估,否则结合强化学习策略和梯度下降方法对深度评估网络进行训练,支持下一次用新的深度评估网络进行评估。评估网络进行评估。评估网络进行评估。

【技术实现步骤摘要】
基于强化学习的车辆共享服务订单派遣方法及系统


[0001]本专利技术涉及车辆共享领域,具体涉及一个基于强化学习的车辆共享服务订单派遣方法及系统。

技术介绍

[0002]车辆共享(Ride

sharing),是指相同路线的几个人乘坐同一辆车进行某种活动,且车费由乘客平均分摊的出行方式。随着城市的发展和共享模式的流行,城市拥堵和交通污染已经成为了影响城市发展的重要问题,为了解决这些问题,车辆共享已经成为了市民出行的主要方式之一。车辆共享的方法有很多,在这些方法中,主要的输入包括两部分,即乘客的集合和车辆的集合,然后车辆共享方法根据乘客的要求找到满足乘客时空约束的车辆,然后根据方法的优化目标选择目标结果最优的车辆作为结果派遣给乘客然后结束。
[0003]Massobrio等人提出了一种遗传算法来解决多个目的地同一起点的车辆派遣问题并且同时考虑了乘客的等待时间和车辆的整体行驶距离,但是这个策略对乘客的位置要求过于严格,乘客只能在相同的位置才可以进行共享,很多情况下乘客的位置并不能满足约束。Vinicius等人提出了一种面向活动的拼车方法,在面向活动的拼车方法中,乘客的目的地不是固定的,即乘客只需要到达可以完成其活动的目的地即可,但是在这个方法对车辆的绕行距离没有具体考虑,Zhu等人提出了一种QoS约束来减少计算量的方法,这些约束包括乘客的等待时间、车辆的行驶距离以及绕路比等,然而这种方法对车辆的路线并没有进行规划。所以,如何同时考虑多种因素并且对得到每种因素的权重是极其困难的,所以本领域需要一种可以同时兼顾多种因素的派遣方法。
[0004]参考文献:
[0005][1]R.Massobrio,G.Fagundez,and S.Nesmachnow,“Multiobjective evolutionary algorithms for the taxi sharing problem,”InternationalJournal of Metaheuristics,vol.5,no.1,pp.67

90,2016.
[0006][2]M.D.L.Vinicius,P.Raffaele,R.Chiara,R.Salvatore,and C.T.Valeria,“Boosting ride sharing with alternative destinations,”IEEE Transactionson Intelligent Transportation Systems,pp.1

11,2018.
[0007][3]M.Zhu,X.Liu,and X.Wang,“Joint transportation and charging scheduling in public vehicle systemsa game theoretic approach,”IEEE Transactions on Intelligent Transportation Systems,vol.19,no.8,pp.2407

2419,2018.

技术实现思路

[0008]根据上述现有技术缺陷,本专利技术提供一种基于强化学习的车辆共享服务订单派遣方法及系统。
[0009]为达到上述目的,本专利技术采用的技术方案提供的一个基于强化学习的车辆共享服
务订单派遣方法,包括以下步骤,
[0010]Step1,收集乘客的信息和车辆的信息,所述乘客的信息包括乘客的起点、目的地、乘客人数以及乘客的最长等待时间,所述车辆的信息包括车辆ID、车辆的当前位置、终点、车辆的剩余座位数量以及车辆的时刻表,车辆的时刻表是包括当前车辆应该去往哪个位置以及车辆接下来要到的所有位置;
[0011]Step2,根据乘客的需求,根据乘客的起点和终点同时进行相应限制,搜索满足乘客时空约束的车辆得到候选车辆集合;
[0012]Step3,计算所有候选车辆集合中的车辆与当前乘客之间的派遣因素,包括车辆的绕路比、座位利用率、车辆的隐藏收益和未来收益;并且按照车辆的绕路比对所有候选车辆进行升序排列,选择前若干个车辆作为最终候选车辆集合;
[0013]Step4,将Step3所得每一辆车的派遣因素输入至深度评估网络中进行评估,对得到的评估结果进行比较,选择评估结果最优的车辆返回给乘客和车辆,如果深度评估网络训练完成,则结束当前次评估,否则,转入Step5;
[0014]Step5,结合强化学习策略和梯度下降方法对深度评估网络进行训练,支持返回步骤Step1对下一次实时采集所得乘客的信息和车辆的信息用新的深度评估网络进行评估。
[0015]而且,Step2中,采用双向最远半径的车辆搜索方式,实现方式如下,
[0016]1)起点单向搜索,包括以乘客的起点为圆心,乘客的最长等待时间和车辆的平均行驶速度的乘积为半径,找到所有在该半径内的车辆,并将车辆放入集合α中;
[0017]2)目的地单向搜索,包括以乘客目的地为圆心,阈值ρ为半径,找到所有车辆目的地距离乘客目的地在阈值ρ内的车辆,并将车辆放入集合β中;
[0018]3)双向搜索,将既在集合α中又在集合β中的车辆放入最终的车辆候选集合C中。
[0019]而且,Step3中,使用动态派遣因素计算方式计算所有候选车辆集合中的车辆与当前乘客之间的派遣因素,实现方式如下,
[0020]1)计算车辆完成乘客的绕路比,绕路比的定义为乘客从起点到达目的地的最短距离与车辆实际行驶距离的比值;
[0021]2)计算乘客对车辆座位的利用率,座位利用率的定义为乘客的数量与车辆剩余座位的比值;
[0022]3)计算车辆搭载乘客的隐藏收益,隐藏收益的定义为车辆前往搭载乘客的路程上为车辆额外带来的收益,包括通过遍历所有在车辆前往乘客所在地的路程上的乘客,并计算这些乘客和当前车辆的路线相似度,选择路线相似度最高的乘客并计算该乘客若搭载当前车辆为当前车辆带来的收益并作为隐藏收益;
[0023]4)根据共享方式计算车辆搭载乘客的未来收益,未来收益的定义为由于共享该乘客而增加的路程中为车辆带来的收益。
[0024]而且,计算未来收益的实现方式如下,
[0025]1)首先根据共享方式计算车辆到达因共享乘客而增加的路程区域的时间段,根据车辆的平均行驶速度和车辆距离目的地的距离计算车辆到达区域所需时间,并得到车辆到达目的区域的时间所属时间段;
[0026]2)找到和该时间段以及区域的最相似的K个历史时期,K为预设的取值;
[0027]3)对K个历史阶段的乘客和车辆的数量分别求加权平均最终得到预测结果,并将
乘客数量与车辆数量的比值作为车辆的未来收益。
[0028]而且,所述共享方式包括便车共享、不共享和顺风车共享。
[0029]而且,结合强化学习策略和梯度下降方法对强化学习网络进行训练,实现方式如下,
[0030]对车本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一个基于强化学习的车辆共享服务订单派遣方法,其特征在于:包括以下步骤,Step1,收集乘客的信息和车辆的信息,所述乘客的信息包括乘客的起点、目的地、乘客人数以及乘客的最长等待时间,所述车辆的信息包括车辆ID、车辆的当前位置、终点、车辆的剩余座位数量以及车辆的时刻表,车辆的时刻表是包括当前车辆应该去往哪个位置以及车辆接下来要到的所有位置;Step2,根据乘客的需求,根据乘客的起点和终点同时进行相应限制,搜索满足乘客时空约束的车辆得到候选车辆集合;Step3,计算所有候选车辆集合中的车辆与当前乘客之间的派遣因素,包括车辆的绕路比、座位利用率、车辆的隐藏收益和未来收益;并且按照车辆的绕路比对所有候选车辆进行升序排列,选择前若干个车辆作为最终候选车辆集合;Step4,将Step3所得每一辆车的派遣因素输入至深度评估网络中进行评估,对得到的评估结果进行比较,选择评估结果最优的车辆返回给乘客和车辆,如果深度评估网络训练完成,则结束当前次评估,否则,转入Step5;Step5,结合强化学习策略和梯度下降方法对深度评估网络进行训练,支持返回步骤Step1对下一次实时采集所得乘客的信息和车辆的信息用新的深度评估网络进行评估。2.根据权利要求1所述基于强化学习的车辆共享服务订单派遣方法,其特征在于:Step2中,采用双向最远半径的车辆搜索方式,实现方式如下,1)起点单向搜索,包括以乘客的起点为圆心,乘客的最长等待时间和车辆的平均行驶速度的乘积为半径,找到所有在该半径内的车辆,并将车辆放入集合α中;2)目的地单向搜索,包括以乘客目的地为圆心,阈值ρ为半径,找到所有车辆目的地距离乘客目的地在阈值ρ内的车辆,并将车辆放入集合β中;3)双向搜索,将既在集合α中又在集合β中的车辆放入最终的车辆候选集合C中。3.根据权利要求1所述基于强化学习的车辆共享服务订单派遣方法,其特征在于:Step3中,使用动态派遣因素计算方式计算所有候选车辆集合中的车辆与当前乘客之间的派遣因素,实现方式如下,1)计算车辆完成乘客的绕路比,绕路比的定义为乘客从起点到达目的地的最短距离与车辆实际行驶距离的比值;2)计算乘客对车辆座位的利用率,座位利用率的定义为乘客的数量与车辆剩余座位的比值;3)计算车辆搭载乘客的隐藏收益,隐藏收益的定义为车辆前往搭载乘客的路程上为车辆额外带来的收益,包括通过遍历所有在车辆前往乘客所在地的路程上的乘客,并计算这些乘客和当前车辆的路线相似度,选择路线相似度最高的乘客并计算该乘客若搭载当前车辆为当前车辆带来的收益并作为隐藏收益;4)根据共享方式计算车辆搭载乘客的未来收益,未来收益的定义为由于共享该乘客而增加的路程中为车辆带来的收益。4.根据权利要求3所述基于强化学习的车辆共享服务订单派遣方法,其特征在于:计算未来收益的实现方式如下,1)首先根据共享方式计算车辆到达因共享乘客而增加的路程区域的时间段,根据车辆的平均行驶速度和车辆距离目的地的距离计算车辆到达区域所需时间,并得到车辆到达目
的区域的时间所属时间段;2)找到和该时间段以及区域的最相似的K个历史时期,K为预设...

【专利技术属性】
技术研发人员:李鹏陈泽强肖均磊聂雷
申请(专利权)人:武汉科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1