适于乘客等待时间分布随时间变化的网约车订单分配方法组成比例

技术编号：27198474 阅读：37 留言：0更新日期：2021-01-31 12:00

本发明专利技术公开了一种适于乘客等待时间分布随时间变化的网约车订单分配方法，包括：根据乘客等待时间分布变化范围计算出该分布变化范围下批处理算法对应的最优的匹配间隔并对不同的乘客等待时间分布训练不同的深度强化学习模型，将上述具有不同匹配间隔的批处理算法和适应不同乘客等待时间分布的深度强化学习模型合并为一个算法集合；当有订单到来时，采用预设的选择模型在算法集合中选择其中一个算法进行分配订单，根据收益反馈对选择模型中的参数进行更新；结合收益反馈检测乘客等待时间分布是否变化，若发生变化则重启选择模型并清空反馈记录。本发明专利技术能够随乘客等待时间和数目分布变化而不断调整分配从而最大化网约车平台收益。车平台收益。车平台收益。

全部详细技术资料下载

【技术实现步骤摘要】
适于乘客等待时间分布随时间变化的网约车订单分配方法

[0001]本专利技术涉及调度规划
，具体而言涉及一种适于乘客等待时间分布随时间变化的网约车订单分配方法。

技术介绍

[0002]随着经济的飞速发展，公共交通存在的不够自主性和个性化的短板日益凸显。在已有的公共交通无法满足所有人的需求下，网约车平台的出现，满足了人们的个性化出行需求并且填补了公共交通的短板。如何高效地分配订单给网约车不仅影响乘客的体验，也会影响网约车平台的收益。
[0003]网约车订单分配问题可以被视为在线二分匹配问题：等待的乘客属于二分图的一边的节点，等待的网约车属于另一边的节点，当网约车和乘客之间存在匹配可能时对应节点直接存在边相连接，其匹配的收益作为边的权重，当等待时间内还未给节点进行匹配，则节点消失(即乘客取消订单)，其目标在于将两边的节点进行不可撤回的匹配使得总收益最大。可以预见到，乘客的等待时间分布将直接影响匹配策略的选择。当愿意等待较长时间的乘客较多时，等待较长的一段时间再进行匹配获取的收益会高于直接的贪心匹配。
[0004]因此考虑等待时间分布来制定分配方案能够有效地提升网约车平台的收益以及乘客的体验。当在早高峰时，打车的乘客大多需要尽早到达公司单位，因此并不愿意等待较长的匹配时间，而当在中午时，乘客大多并无急事因此愿意等待较长匹配时间的乘客也较多。关于等待时间分布的变化已有较多的研究，即等待时间会被天气等难以预测的因素影响。同时相比于数量分布，由于不知道已匹配乘客的剩余等待时间，等待时间分布总是难以直接进行统计...

【技术保护点】

【技术特征摘要】
1.一种适于乘客等待时间分布随时间变化的网约车订单分配方法，其特征在于，所述订单分配方法包括以下步骤：S1，根据乘客等待时间分布变化范围计算出该分布变化范围下批处理算法对应的最优的匹配间隔并对不同的乘客等待时间分布训练不同的深度强化学习模型，将上述具有不同匹配间隔的批处理算法和适应不同乘客等待时间分布的深度强化学习模型合并为一个算法集合；S2，当有订单到来时，采用预设的选择模型在步骤S1合并得到的算法集合中选择其中一个算法进行分配订单，根据收益反馈对选择模型中的参数进行更新；S3，结合步骤S2的收益反馈检测乘客等待时间分布是否变化，若发生变化则重启选择模型并清空反馈记录。2.根据权利要求1所述的适于乘客等待时间分布随时间变化的网约车订单分配方法，其特征在于，步骤S1中，所述对不同的乘客等待时间分布训练不同的深度强化学习模型的过程包括：将当前等待匹配的乘客数目和网约车数目、当前等待匹配的乘客和网约车各自的平均等待时间，以及当前用匈牙利算法执行匹配所能得到的收益作为输入的状态参数，对深度强化学习模型进行训练，深度强化学习模型的输出动作包括：采用匈牙利算法匹配当前等待的所有乘客和网约车，和不执行匹配并且等待更多的乘客和网约车再分配；所述深度强化学习模型的训练奖励为匹配带来的收益。3.根据权利要求2所述的适于乘客等待时间分布随时间变化的网约车订单分配方法，其特征在于，当进行深度强化学习模型训练时，通过执行得分较高的动作并尝试收益，将产生的收益、状态参数、输出动作，以及下个时刻的状态参数存储起来，周期性优化神经网络：将存储的数据带入Q值状态转移方程得到真实的Q值并与神经网络输出的得分相减得到误差，并对误差进行逆传播以优化神经网络。4.根据权利要求1所述的适于乘客等待时间分布随时间变化的网约车订单分配方法，其特征在于，步骤S2中，所述当有订单到来时，采用预设的选择模型在步骤S1合并得到的算法集合中选择其中一...

【专利技术属性】
技术研发人员：郑嘉琦，陈伟荣，陈贵海，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人