当前位置: 首页 > 专利查询>南京大学专利>正文

一种在线司乘匹配方法、介质及设备组成比例

技术编号:45826190 阅读:19 留言:0更新日期:2025-07-15 22:34
本发明专利技术提供了一种在线司乘匹配方法、介质及设备,属于在线二部图匹配技术领域,其中提出了一套基于分层强化学习的策略架构,对未来信息进行预测来指导当前的决策,先训练不同的底层策略,再训练高层模型选择底层策略以优化长期总收益。匹配时间片的收益和状态转移遵循特定规则,状态包括司机和订单特征,动作是通过停止策略决定是否改变底层策略,若改变则由高层策略选择合适的底层策略。本发明专利技术采用分层强化学习架构,解决了训练效率与决策性能的权衡难题,降低决策复杂度,提高训练效率,确保在复杂动态环境下能快速准确做出高质量决策,提升系统整体性能。

【技术实现步骤摘要】

本专利技术属于在线二部图匹配,具体涉及一种在线司乘匹配方法、介质及设备


技术介绍

1、随着移动互联网技术的快速发展和智能手机的普及,网约车出行服务为人们的出行提供了极大便利。网约车平台实施在线匹配流程,可更有效地匹配未得到服务的乘客和闲置的司机,且通过app收集的信息能进一步增强在线匹配过程,减少搜索摩擦。在调度模式下,网约车派单平台面临着将乘客分配给在线司机的问题,这可抽象为在线二部图匹配问题。

2、然而,很多解决方案在处理该问题时存在不足。例如,部分方法未充分考虑未来信息对当前匹配的影响,导致匹配结果陷入局部最优,收益降低;一些方法虽有改进,但仍存在预测粒度粗、难以精准适应复杂多变的订单调度环境、无法有效处理双边不确定性等问题。传统的出租车调度系统通过顺序向乘客调度出租车来提高司机对订单的接受率,而现代的网约车调度问题更为复杂,需要综合考虑更多因素,如司机和乘客的实时位置、轨迹、出行模式。

3、鉴于强化学习在多种高维长序列决策问题中取得胜利的巨大成功,国内外前沿工作纷纷采用强化学习优化司乘在线二部图匹配问题,力求最优化平均长期本文档来自技高网...

【技术保护点】

1.一种在线司乘匹配方法,其特征在于,包括:

2.如权利要求1所述的一种在线司乘匹配方法,其特征在于:所述底层策略网络的构建和训练过程为:

3.如权利要求2所述的一种在线司乘匹配方法,其特征在于:所述构建用于底层策略网络训练的状态特征,具体为:

4.如权利要求3所述的一种在线司乘匹配方法,其特征在于:所述在每个时间片对底层策略网络进行训练,包括对于每个时间片t,执行以下操作:

5.如权利要求1所述的一种在线司乘匹配方法,其特征在于:所述高层策略网络的构建和训练过程为:

6.如权利要求5所述的一种在线司乘匹配方法,其特征在于:所述...

【技术特征摘要】

1.一种在线司乘匹配方法,其特征在于,包括:

2.如权利要求1所述的一种在线司乘匹配方法,其特征在于:所述底层策略网络的构建和训练过程为:

3.如权利要求2所述的一种在线司乘匹配方法,其特征在于:所述构建用于底层策略网络训练的状态特征,具体为:

4.如权利要求3所述的一种在线司乘匹配方法,其特征在于:所述在每个时间片对底层策略网络进行训练,包括对于每个时间片t,执行以下操作:

5.如权利要求1所述的一种在线司乘匹配方法,其特征在于:所述高层策略网络的构建和训练过程为:

6.如权利要求5所述的一种在线司乘匹配方法,其特征在于:所述高层策略网络的状态空间包括从用于底层策略网络训练的状态特征提取的高级特征表示、底层策略网络的输出和停止策略网络的输出,动作空间包括决定是否改变底层策略网络以及选择底层策略网络。

7.如权利要求5所述的一种在线...

【专利技术属性】
技术研发人员:郑嘉琦汪佳陈贵海
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1