【技术实现步骤摘要】
本专利技术属于在线二部图匹配,具体涉及一种在线司乘匹配方法、介质及设备。
技术介绍
1、随着移动互联网技术的快速发展和智能手机的普及,网约车出行服务为人们的出行提供了极大便利。网约车平台实施在线匹配流程,可更有效地匹配未得到服务的乘客和闲置的司机,且通过app收集的信息能进一步增强在线匹配过程,减少搜索摩擦。在调度模式下,网约车派单平台面临着将乘客分配给在线司机的问题,这可抽象为在线二部图匹配问题。
2、然而,很多解决方案在处理该问题时存在不足。例如,部分方法未充分考虑未来信息对当前匹配的影响,导致匹配结果陷入局部最优,收益降低;一些方法虽有改进,但仍存在预测粒度粗、难以精准适应复杂多变的订单调度环境、无法有效处理双边不确定性等问题。传统的出租车调度系统通过顺序向乘客调度出租车来提高司机对订单的接受率,而现代的网约车调度问题更为复杂,需要综合考虑更多因素,如司机和乘客的实时位置、轨迹、出行模式。
3、鉴于强化学习在多种高维长序列决策问题中取得胜利的巨大成功,国内外前沿工作纷纷采用强化学习优化司乘在线二部图匹配问题
...【技术保护点】
1.一种在线司乘匹配方法,其特征在于,包括:
2.如权利要求1所述的一种在线司乘匹配方法,其特征在于:所述底层策略网络的构建和训练过程为:
3.如权利要求2所述的一种在线司乘匹配方法,其特征在于:所述构建用于底层策略网络训练的状态特征,具体为:
4.如权利要求3所述的一种在线司乘匹配方法,其特征在于:所述在每个时间片对底层策略网络进行训练,包括对于每个时间片t,执行以下操作:
5.如权利要求1所述的一种在线司乘匹配方法,其特征在于:所述高层策略网络的构建和训练过程为:
6.如权利要求5所述的一种在线司乘匹配方
...【技术特征摘要】
1.一种在线司乘匹配方法,其特征在于,包括:
2.如权利要求1所述的一种在线司乘匹配方法,其特征在于:所述底层策略网络的构建和训练过程为:
3.如权利要求2所述的一种在线司乘匹配方法,其特征在于:所述构建用于底层策略网络训练的状态特征,具体为:
4.如权利要求3所述的一种在线司乘匹配方法,其特征在于:所述在每个时间片对底层策略网络进行训练,包括对于每个时间片t,执行以下操作:
5.如权利要求1所述的一种在线司乘匹配方法,其特征在于:所述高层策略网络的构建和训练过程为:
6.如权利要求5所述的一种在线司乘匹配方法,其特征在于:所述高层策略网络的状态空间包括从用于底层策略网络训练的状态特征提取的高级特征表示、底层策略网络的输出和停止策略网络的输出,动作空间包括决定是否改变底层策略网络以及选择底层策略网络。
7.如权利要求5所述的一种在线...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。