当前位置: 首页 > 专利查询>南京大学专利>正文

适于乘客等待时间分布随时间变化的网约车订单分配方法组成比例

技术编号:27198474 阅读:37 留言:0更新日期:2021-01-31 12:00
本发明专利技术公开了一种适于乘客等待时间分布随时间变化的网约车订单分配方法,包括:根据乘客等待时间分布变化范围计算出该分布变化范围下批处理算法对应的最优的匹配间隔并对不同的乘客等待时间分布训练不同的深度强化学习模型,将上述具有不同匹配间隔的批处理算法和适应不同乘客等待时间分布的深度强化学习模型合并为一个算法集合;当有订单到来时,采用预设的选择模型在算法集合中选择其中一个算法进行分配订单,根据收益反馈对选择模型中的参数进行更新;结合收益反馈检测乘客等待时间分布是否变化,若发生变化则重启选择模型并清空反馈记录。本发明专利技术能够随乘客等待时间和数目分布变化而不断调整分配从而最大化网约车平台收益。车平台收益。车平台收益。

【技术实现步骤摘要】
适于乘客等待时间分布随时间变化的网约车订单分配方法


[0001]本专利技术涉及调度规划
,具体而言涉及一种适于乘客等待时间分布随时间变化的网约车订单分配方法。

技术介绍

[0002]随着经济的飞速发展,公共交通存在的不够自主性和个性化的短板日益凸显。在已有的公共交通无法满足所有人的需求下,网约车平台的出现,满足了人们的个性化出行需求并且填补了公共交通的短板。如何高效地分配订单给网约车不仅影响乘客的体验,也会影响网约车平台的收益。
[0003]网约车订单分配问题可以被视为在线二分匹配问题:等待的乘客属于二分图的一边的节点,等待的网约车属于另一边的节点,当网约车和乘客之间存在匹配可能时对应节点直接存在边相连接,其匹配的收益作为边的权重,当等待时间内还未给节点进行匹配,则节点消失(即乘客取消订单),其目标在于将两边的节点进行不可撤回的匹配使得总收益最大。可以预见到,乘客的等待时间分布将直接影响匹配策略的选择。当愿意等待较长时间的乘客较多时,等待较长的一段时间再进行匹配获取的收益会高于直接的贪心匹配。
[0004]因此考虑等待时间分布来制定分配方案能够有效地提升网约车平台的收益以及乘客的体验。当在早高峰时,打车的乘客大多需要尽早到达公司单位,因此并不愿意等待较长的匹配时间,而当在中午时,乘客大多并无急事因此愿意等待较长匹配时间的乘客也较多。关于等待时间分布的变化已有较多的研究,即等待时间会被天气等难以预测的因素影响。同时相比于数量分布,由于不知道已匹配乘客的剩余等待时间,等待时间分布总是难以直接进行统计的。因此想通过直接观察或者统计长时间的历史数据来预测等待时间分布变化进行匹配策略的调整是难以实行的。
[0005]由于等待时间的分布难以被直接统计,因此传统的匹配策略总是不考虑等待时间分布发生变化的问题。换而言之,传统的订单匹配策略总在某些分布下表现较好而当分布变化时则无法保持原有的高效性。从另一方面,传统的难以适应变化的分布的匹配策略也极大的影响了乘客的使用体验。

技术实现思路

[0006]本专利技术针对现有技术中的不足,提供一种适于乘客等待时间分布随时间变化的网约车订单分配方法,当检测到分布发生变化时重新在算法集合中选择匹配算法以达到在乘客时间分布不断变化下仍能最大化网约车平台收益的目的。
[0007]为实现上述目的,本专利技术采用以下技术方案:
[0008]一种适于乘客等待时间分布随时间变化的网约车订单分配方法,所述订单分配方法包括以下步骤:
[0009]S1,根据乘客等待时间分布变化范围计算出该分布变化范围下批处理算法对应的最优的匹配间隔并对不同的乘客等待时间分布训练不同的深度强化学习模型,将上述具有
不同匹配间隔的批处理算法和适应不同乘客等待时间分布的深度强化学习模型合并为一个算法集合;
[0010]S2,当有订单到来时,采用预设的选择模型在步骤S1合并得到的算法集合中选择其中一个算法进行分配订单,根据收益反馈对选择模型中的参数进行更新;
[0011]S3,结合步骤S2的收益反馈检测乘客等待时间分布是否变化,若发生变化则重启选择模型并清空反馈记录。
[0012]为优化上述技术方案,采取的具体措施还包括:
[0013]进一步地,步骤S1中,所述对不同的乘客等待时间分布训练不同的深度强化学习模型的过程包括:
[0014]将当前等待匹配的乘客数目和网约车数目、当前等待匹配的乘客和网约车各自的平均等待时间,以及当前用匈牙利算法执行匹配所能得到的收益作为输入的状态参数,对深度强化学习模型进行训练,深度强化学习模型的输出动作包括:采用匈牙利算法匹配当前等待的所有乘客和网约车,和不执行匹配并且等待更多的乘客和网约车再分配;
[0015]所述深度强化学习模型的训练奖励为匹配带来的收益。
[0016]进一步地,当进行深度强化学习模型训练时,通过执行得分较高的动作并尝试收益,将产生的收益、状态参数、输出动作,以及下个时刻的状态参数存储起来,周期性优化神经网络:
[0017]将存储的数据带入Q值状态转移方程得到真实的Q值并与神经网络输出的得分相减得到误差,并对误差进行逆传播以优化神经网络。
[0018]进一步地,步骤S2中,所述当有订单到来时,采用预设的选择模型在步骤S1合并得到的算法集合中选择其中一个算法进行分配订单的过程包括以下步骤:
[0019]S21,当选择模型刚被启动时,依次选择算法集合中的算法进行第一预设时间范围内的订单分配,记录各个算法的总收益;
[0020]S22,归一化各个算法的总收益至0-1之间,并根据收益计算各个算法收益的置信区间的上界,同时为每个算法维持一个虚拟队列,当算法被选择时对应的队列长度减一,直至允许的最小长度阈值,反之则在对应的队列长度上加上一个选择率常数;
[0021]S23,之后每次都选择收益置信区间上界和队列长度之和最大的算法进行第二预设时间范围的匹配,并记录收益更新各个算法对应的收益置信区间上界以及虚拟队列长度。
[0022]进一步地,步骤S3中,结合步骤S2的收益反馈检测乘客等待时间分布是否变化的过程包括以下步骤:
[0023]S31,启动选择模型,初始化两个定长队列,两个定长队列分别被定义成第一队列和第二队列,第二队列长度为第一队列长度的一半,且第二队列的长度乘以选择率常数的乘积取值大于1;
[0024]S32,将每次得到所选算法的收益入队第一队列直至第一队列满;
[0025]S33,针对各个算法,选择第一队列前半部分中的对应的收益构建第一收益向量,选择第一队列后半部分中的对应的收益构建第二收益向量;其中,若一个算法在前半队列或后半队列中被选择了多次,则在几个对应的收益中随机选取一个;
[0026]S34,将两个收益向量相减之后取1范数作为第二队列的入队元素,直至第二队列
满;
[0027]S35,线性拟合第二队列中的元素,其中入队元素作为因变量,元素在队列中的序号作为自变量,若拟合直线斜率在给定置信水平下的置信区间下界大于0则认为分布发生改变,返回步骤S31,若小于0则认为分布不变无需重启选择模型,结束流程。
[0028]进一步地,步骤S35中,通过调节置信水平调节检测乘客等待时间分布是否变化的检测强度。
[0029]本专利技术的有益效果是:
[0030](1)本专利技术首次提出了一种适于乘客等待时间分布随时间变化的网约车订单分配方法,使得在分布发生变化时能够自动的改变分配策略使得平台收益最大化,同时也能够适应不同时间段下乘客对等待时间的要求,使得乘客的使用体验得到提升。
[0031](2)本专利技术支持更换算法集合中的算法而不做其他的调整,当平台找到对某种分布有更优的匹配算法时,可以快速的部署升级而不需要全局的调整。这也使得本方法可以为不同城市设置特定的算法集合来因地制宜的制定匹配策略。
[0032](3)本专利技术不仅适用于网约车订单分配问题,在其他的涉及分布变化的在线任务分配问题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适于乘客等待时间分布随时间变化的网约车订单分配方法,其特征在于,所述订单分配方法包括以下步骤:S1,根据乘客等待时间分布变化范围计算出该分布变化范围下批处理算法对应的最优的匹配间隔并对不同的乘客等待时间分布训练不同的深度强化学习模型,将上述具有不同匹配间隔的批处理算法和适应不同乘客等待时间分布的深度强化学习模型合并为一个算法集合;S2,当有订单到来时,采用预设的选择模型在步骤S1合并得到的算法集合中选择其中一个算法进行分配订单,根据收益反馈对选择模型中的参数进行更新;S3,结合步骤S2的收益反馈检测乘客等待时间分布是否变化,若发生变化则重启选择模型并清空反馈记录。2.根据权利要求1所述的适于乘客等待时间分布随时间变化的网约车订单分配方法,其特征在于,步骤S1中,所述对不同的乘客等待时间分布训练不同的深度强化学习模型的过程包括:将当前等待匹配的乘客数目和网约车数目、当前等待匹配的乘客和网约车各自的平均等待时间,以及当前用匈牙利算法执行匹配所能得到的收益作为输入的状态参数,对深度强化学习模型进行训练,深度强化学习模型的输出动作包括:采用匈牙利算法匹配当前等待的所有乘客和网约车,和不执行匹配并且等待更多的乘客和网约车再分配;所述深度强化学习模型的训练奖励为匹配带来的收益。3.根据权利要求2所述的适于乘客等待时间分布随时间变化的网约车订单分配方法,其特征在于,当进行深度强化学习模型训练时,通过执行得分较高的动作并尝试收益,将产生的收益、状态参数、输出动作,以及下个时刻的状态参数存储起来,周期性优化神经网络:将存储的数据带入Q值状态转移方程得到真实的Q值并与神经网络输出的得分相减得到误差,并对误差进行逆传播以优化神经网络。4.根据权利要求1所述的适于乘客等待时间分布随时间变化的网约车订单分配方法,其特征在于,步骤S2中,所述当有订单到来时,采用预设的选择模型在步骤S1合并得到的算法集合中选择其中一...

【专利技术属性】
技术研发人员:郑嘉琦陈伟荣陈贵海
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1