订单分配方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号:34279717 阅读:61 留言:0更新日期:2022-07-24 18:01
本公开涉及一种订单分配方法、装置、计算机可读存储介质及电子设备,该方法包括:提取历史接单信息中的低阶特征及高阶特征,根据低阶特征及高阶特征训练得到价值函数网络,当配送人员的接单数量改变时更新历史接单信息,得到更新后的历史接单信息,根据更新后的历史接单信息更新价值函数网络的参数,得到更新后的价值函数网络,通过更新后的价值函数网络确定的待分配订单的分配方式。从历史接单信息中采样以训练得到价值函数网络,不需要与环境交互,能够避免线上试错成本;不同配送人员共享一个价值函数网络,通过配送人员与环境交互产生的新的训练样本,更新价值函数网络,有效减少了价值函数网络状态与决策空间规模,避免了训练样本不足。训练样本不足。训练样本不足。

Order allocation method, device, computer readable storage medium and electronic equipment

【技术实现步骤摘要】
订单分配方法、装置、计算机可读存储介质及电子设备


[0001]本公开涉及计算机技术邻域,具体地,涉及一种订单分配方法、装置、计算机可读存储介质及电子设备。

技术介绍

[0002]在外卖骑手调度场景中,分配订单时需要确定骑手与订单间的匹配关系,在保证时间窗约束的前提下确定完成不同订单配送的骑手,实现最小化总配送成本的目标。对于当前可派单的骑手以及待分配的订单来说,其中每个订单至多分配给一个骑手,但骑手可以同时服务多单。每个订单对应不同的取送位置与时间窗,与不同骑手匹配产生不同的配送成本,配送成本受配送距离、时间、延误等影响。在订单分配的过程中需要考虑各个订单的位置、时间约束、商家特性、骑手偏好等,制定最优的指派方案,因此亟需一种能够最小化总配送成本的订单分配方法。

技术实现思路

[0003]本公开的目的是提供一种订单分配方法,该方法用于实现兼顾配送效率、配送体验,同时最小化总配送成本的目的。
[0004]为了实现上述目的,第一方面,本公开提供一种订单分配方法,包括:
[0005]提取历史接单信息中的低阶特征及高阶特征;所述历史接单信息包括配送人员信息、环境信息及订单信息;根据所述低阶特征及所述高阶特征训练得到价值函数网络;当所述配送人员的接单数量改变时更新所述历史接单信息,得到更新后的历史接单信息;根据所述更新后的历史接单信息更新所述价值函数网络的参数,得到更新后的价值函数网络;通过所述更新后的价值函数网络确定待分配订单的分配方式。
[0006]第二方面,本公开提供一种订单分配装置,包括:
[0007]获取模块,用于提取历史接单信息中的低阶特征及高阶特征;所述历史接单信息包括配送人员信息、环境信息及订单信息;获取模块,还用于根据所述低阶特征及所述高阶特征训练得到价值函数网络;处理模块,用于当所述配送人员的接单数量改变时更新所述历史接单信息,得到更新后的历史接单信息;更新模块,用于根据所述更新后的历史接单信息更新所述价值函数网络的参数,得到更新后的价值函数网络;所述处理模块,用于通过所述更新后的价值函数网络确定的待分配订单的分配方式。
[0008]第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理装置执行时实现前述的订单分配方法的步骤。
[0009]第四方面,本公开提供一种计算机设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现前述的订单分配方法的步骤。
[0010]通过上述技术方案,提取历史接单信息中的低阶特征及高阶特征,根据低阶特征及高阶特征训练得到价值函数网络,当配送人员的接单数量改变时更新历史接单信息,得
到更新后的历史接单信息,根据更新后的历史接单信息更新价值函数网络的参数,得到更新后的价值函数网络,通过更新后的价值函数网络确定的待分配订单的分配方式。从历史接单信息中采样以训练得到价值函数网络,不需要与环境交互,能够避免线上试错成本;不同配送人员共享一个价值函数网络,通过配送人员与环境交互产生的新的训练样本,更新价值函数网络,有效减少了价值函数网络状态与决策空间规模,避免了训练样本不足。
[0011]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0012]附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0013]图1是本公开一个示例性实施例提供的计算机系统的结构示意图。
[0014]图2是本公开一个示例性实施例提供的订单分配方法的流程图。
[0015]图3是本公开一个示例性实施例提供的步骤S104的子步骤的流程图。
[0016]图4是本公开一个示例性实施例示出的待分配订单的示意图。
[0017]图5是本公开一个示例性实施例提供的订单分配装置框图。
[0018]图6是本公开一个示例性实施例提供的电子设备的框图。
[0019]图7是本公开一个示例性实施例提供的电子设备的框图。
[0020]附图标记说明
[0021]120

终端;140

服务器;20

订单分配装置;201

获取模块;203

处理模块;205

更新模块;700

电子设备;701

处理器;702

存储器;703

多媒体组件;704

I/O接口;705

通信组件;1900

电子设备;1922

处理器;1932

存储器;1926

电源组件;1950

通信组件;1958

I/O接口。
具体实施方式
[0022]以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
[0023]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0024]现有研究通常将订单指派问题建模为分配问题(matching problem)或带有时间窗约束的取送问题(pickup and delivery problem),针对前者学界与业界已有较成熟的方法求解。后者为NP难问题(NP

hard problem),通常采用启发式算法等近似方法求解。骑手/订单匹配问题由于骑手可以履行多单以及骑手行为的复杂随机性相比现有文献更为复杂,已有研究方案通常是将静态时间断面的贪心决策(通常基于启发式算法)进行动态关联,缺乏对骑手接单行为如何影响未来长期效率与体验等指标的刻画。由于骑手履行多单取送过程复杂耦合关系,在指派模型中考虑当前派单对骑手之后一段时间内接单率、延误时间等指标的影响有利于优化算法寻优性能与求解效率的提升。
[0025]本公开采用强化学习技术,其在建模与求解真实大规模随机动态场景下的进行运筹优化。强化学习技术使用近似函数替换贝尔曼方程中的精确值函数,通过状态

决策路径不断迭代更新近似值函数直到找到近似全局最优解,可以运用在车辆路径规划、订单分配、
订单取送等问题场景中。其通过离线训练系统在不同状态下采取不同派单(路径规划)策略的价值函数,能够在线上决策中快速获取实时超大规模优化问题的近似全局最优解,在处理复杂、顺序决策问题求解中具有巨大潜力。
[0026]图1示出了本公开一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括终端120和服务器140。
[0027]终端120与服务器140之间通过有线或者无线网络相互连接。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种订单分配方法,其特征在于,包括:提取历史接单信息中的低阶特征及高阶特征;所述历史接单信息包括配送人员信息、环境信息及订单信息;根据所述低阶特征及所述高阶特征训练得到价值函数网络;当所述配送人员的接单数量改变时更新所述历史接单信息,得到更新后的历史接单信息;根据所述更新后的历史接单信息更新所述价值函数网络的参数,得到更新后的价值函数网络;通过所述更新后的价值函数网络确定待分配订单的分配方式。2.根据权利要求1所述的方法,其特征在于,所述提取所述配送人员信息、所述环境信息及所述订单信息中的低阶特征及高阶特征的步骤包括:通过因子分解机提取所述配送人员信息、所述环境信息及所述订单信息中的低阶特征;通过深度神经网络提取所述配送人员信息、所述环境信息及所述订单信息中的高阶特征。3.根据权利要求1所述的方法,其特征在于,所述当所述配送人员的接单数量改变时更新所述历史接单信息,得到更新后的历史接单信息的步骤包括:当所述配送人员的接单数量改变时,获取新增订单的订单信息;将所述新增订单的订单信息添加至所述历史接单信息中,得到更新后的历史接单信息。4.根据权利要求3所述的方法,其特征在于,所述新增订单的订单信息包括:配送人员位置、取送点位置、取送预估时间、最晚送达时间、延误时长、配送时长、配送距离、订单配送轨迹、预计出餐时长及派单时刻所处时段中的至少一种。5.根据权利要求1所述的方法,其特征在于,所述根据所述更新后的历史接单信息更新所述价值函数网络的参数,得到更新后的价值函数网络的步骤包括:通过所述更新后的历史接单信息训练所述价值函数网络,直至所述价值函数网络满足预期的收敛条件;将满足所述预期的收敛条件的价值函数网络作为所述更新后的价值函数网络。6.根据权利要求5所述的方法,其特征在于,所述价值函数网络的计算公式包括:θ
k+1
=θ
k
+α[r+γmax Q(s

,a

;θ
k
)

...

【专利技术属性】
技术研发人员:李冬辉梁易乐任昊郑洁司徒陈麒丁雪涛
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1