当前位置: 首页 > 专利查询>东南大学专利>正文

基于多方公平的即时配送派单系统技术方案

技术编号:38971669 阅读:32 留言:0更新日期:2023-09-28 09:35
本发明专利技术公开了一种基于多方公平的即时配送派单系统,包括特征处理模块、环境仿真模块和即时派单模块,=多方公平是指参与及时配送平台的服务提供方或服务接收方。特征处理模块收集不同派送区域的环境、历史订单记录和多方的公平性信息,经过预处理生成对应的特征信息。环境仿真模块基于马尔可夫决策过程设计及时配送场景的仿真环境。即时派单模块为每一个待分配的订单生成候选骑手集合并为其构建状态特征空间和动作特征空间,基于基于输入的特征空间生成最合适的候选骑手并将订单分派给该骑手。本发明专利技术的有益效果为:不仅提高了派单平台的总收入,还满足了顾客的订单及时需求并分别降低了骑手的基尼系数和商家的利润差距达和。。。

【技术实现步骤摘要】
基于多方公平的即时配送派单系统


[0001]本专利技术涉及一种订单分配领域,尤其在涉及基于多方公平的即时配送系统。

技术介绍

[0002]由于外卖服务的蓬勃发展,即时配送平台接受到的订单量正在飞速增加,因此需要一个优秀的订单分派模型来高效地将订单分配给最适合的骑手。由于骑手需要同时负责多个订单的配送,同时在配送途中仍在不断接受新的订单,这使得与订单相关的商家和用户的体验与骑手是否及时配送紧密相关。然而,在当前大部分的派单模型中,都是以平台的利益为唯一考核标准,这使得骑手、商家、用户的公平性都被忽视,有时会带来很糟糕的工作体验和使用体验。为了保障系统的可持续发展和系统中每一个利益方的工作体验,因此,我们需要设计一种系统,不仅仅可以考虑系统效益,还需要考虑参与系统中的每一个利益方的公平性,即骑手、商家和用户的公平性。

技术实现思路

[0003]为解决上述问题,本专利技术公开了基于多方公平的即时配送系统,该系统可以帮助他们获得较公平的配送服务体验;最后对于顾客而言,该系统可以确保他们的等单时间控制在最大容忍程度内。
[0004]基于多方公平的即时配送系统,包括以下步骤:
[0005]步骤(1)特征处理模块:特征处理模块基于真实世界即时配送场景的数据和运行规则,收集不同派送区域的环境、历史订单记录和多方的公平性信息,经过预处理生成对应的特征信息。其中,多方公平性信息基于我们对于参与即时配送系统的利益方(骑手、商家和顾客)的公平性定义;
[0006]步骤(2)环境仿真模块:环境仿真模块基于真实的即时配送场景仿真骑手的配送环境。其中,环境仿真模块以马尔可夫决策过程为框架描述骑手状态转移的过程,并设计骑手接单模拟模块和骑手配送路径模拟模块;
[0007]步骤(3)即时派单模块:即时派单模块为每一个待分配的订单生成候选骑手集合并为其构建状态特征空间和动作特征空间,并利用强化学习中的Advantage Actor

Critic算法在仿真环境中训练派单策略,基于输入的特征空间生成最合适的候选骑手并将订单分派给该骑手。在训练过程中,本模块会生成考虑多方公平的奖励系数并引导派单策略关注于每一个参与方的公平性信息。
[0008]进一步的,步骤(1)具体包括:
[0009](1

1)收集不同派送区域的环境、历史订单记录和多方的公平性信息,具体步骤为:

记录派送区域在数据收集时间的环境信息,包含天气、是否是节假日、路况拥堵情况和路网信息。

从数据库中提取历史订单配送信息,包括订单ID、订单价格、订单所属骑手、订单预计送达时间、订单中商家位置、订单中顾客位置、订单生成时间、骑手接单时间、骑手到店时间、骑手取餐时间和骑手送达时间。

收集骑手的历史收入信息、商家的订单历史接
单时间和用户的历史订单送达时间,用于计算多方的公平性。
[0010](1

2)明确多方公平的定义,具体步骤为:
[0011]顾客层面的公平基于Least Misery Fairness定义,将订单时段分为高峰段与非高峰段,分别设置顾客最长容忍等单时间,满足某一时段内顾客最长等待的超时时间都在容忍阈值内,即可保障顾客在平台的公平性权益。当骑手当前的订单对应的顾客最长等待的超时时间超过了容忍阈值,则认为该顾客得到了不公平的对待,骑手需要优先解决该问题(将订单即时送达),否则系统将不给该骑手分配新的订单。
[0012]设置在时隙t时订单i的利润率PE(i,t)如下:
[0013]PE(i,t)=γ
Δt
×
fee
i
[0014]其中Δt是从顾客下单到最终配送花费的时间,γ∈[0,1]是与时间开销有冠的折扣因子,fee
i
是订单i的配送费。注意到如果配送费相同,Δt花的时间越短,订单i的利润率就越高。
[0015]确定以所有骑手在平台中的利润率CE的方差CF代表骑手之间利润公平性,计算方式如下:
[0016][0017][0018]可见骑手k在时隙t时所赚的利润CE(k,t)由单位劳动时长的收入来衡量,m表示骑手当前总共派送的订单个数,T
work
为骑手工作的小时数。
[0019]是时隙t时活跃在平台的所有骑手平均的利润率,N
c
是在线的骑手数,从而算出所有骑手的利润方差作为骑手之间的利润公平性。
[0020]本专利技术认为当商家的产品可以被骑手及时拿到以送给顾客即是公平的。基于此,对商家之间的利润公平MF的定义如下:
[0021][0022][0023]其中N
o
是商家生产的订单数量,dist表示配送的距离,T
m(i)
表示商品i准备好的时间点,T
d(i)
是送达顾客的时间点,即T
d(i)

T
m(i)
为商家等待骑手取走商品与骑手派送到顾客处的总时间。PV(m,t)越大意味着商品m在时隙t内越不及时,更小的MF代表对商家来说有更公平的平台体验。
[0024](1

3)从数据中提取出能影响及时配送派单行为的特征,具体步骤为:

以每一个订单为锚点,记录订单与其关联的骑手、商家、用户中能影响派单算法的特征。

与订单相关的派单算法特征为:订单价格、订单预计送达时间。

与骑手相关的派单算法特征为:骑手当前位置、骑手当前订单量、骑手未来派单路径、骑手累计收入、骑手累计工作时间。


商家相关的派单算法特征为:商家位置、商家平均等餐时间。

与顾客相关的派单算法特征为:顾客位置、顾客最长容忍等餐时间。
[0025]进一步的,步骤(2)具体包括:
[0026](2

1)基于马尔可夫决策过程设计即时配送场景的仿真环境。本专利技术将基于多方公平的订单配送问题抽象建模为多智能体马尔可夫决策过程。其中,马尔可夫决策过程包含五个部分:代理人,状态S,动作A,奖励R,状态转移函数f(S|A,S)。马尔科夫决策过程的基本原理为代理人在环境中执行动作a,环境会反馈奖励r来评价这个动作的收益,代理人的状态s也会基于状态转移函数f(s|a,s)发生改变。在本专利技术中,马尔可夫决策过程被具体描述为:
[0027]①
代理。每一个骑手被设定为一个代理,与环境进行交互,执行动作并接收环境反馈(奖励)的功能。在本模块中,骑手被设定能接收六个订单,在配送箱内有位置时参与附近订单的接单过程,并在没有接单任务时按照系统设定路径配送已经分配的订单。其中,配送过程分为前往商家位置取餐和前往顾客位置派餐两个步骤。在马尔可夫决策过程中,每个代码都拥有一个实时的状态s
t
,并会执行接单动作a
t

[0028]②<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.即时配送场景下基于多方公平的订单分派算法,其特征在于:包括以下步骤:步骤1:特征处理模块:基于真实世界即时配送场景的数据和运行规则,收集不同派送区域的环境、历史订单记录和多方的公平性信息,经过预处理生成对应的特征信息;其中多方公平性信息基于我们对于参与即时配送系统的利益方,即骑手、商家和顾客的公平性定义;步骤2:环境仿真模块:环境仿真模块基于真实的即时配送场景仿真骑手的配送环境。其中,环境仿真模块以马尔可夫决策过程为框架描述骑手状态转移的过程,并设计骑手接单模拟模块和骑手配送路径模拟模块。步骤3:即时派单模块:即时派单模块为每一个待分配的订单生成候选骑手集合并为其构建状态特征空间和动作特征空间,并利用强化学习中的AdvantageActor

Critic算法在仿真环境中训练派单策略,基于输入的特征空间生成最合适的候选骑手并将订单分派给该骑手;在训练过程中,本模块会生成考虑多方公平的奖励系数并引导派单策略关注于每一个参与方的公平性信息。2.根据权利要求1所述的即时配送场景下基于多方公平的订单分派算法,其特征在于:所述步骤1中,收集不同派送区域的环境、历史订单记录和多方的公平性信息的步骤为:

记录派送区域在数据收集时间的环境信息,包含天气、是否是节假日、路况拥堵情况和路网信息;

从数据库中提取历史订单配送信息,包括订单ID、订单价格、订单所属骑手、订单预计送达时间、订单中商家位置、订单中顾客位置、订单生成时间、骑手接单时间、骑手到店时间、骑手取餐时间和骑手送达时间;

收集骑手的历史收入信息、商家的订单历史接单时间和用户的历史订单送达时间,用于计算多方的公平性。3.根据权利要求1所述的基于多方公平的即时配送派单系统,其特征在于:所述步骤1特征处理模块中,明确多方公平的定义的具体步骤:

顾客层面的公平基于Least Misery Fairness定义,将订单时段分为高峰段与非峰段,分别设置顾客最长容忍等单时间,满足某一时段内顾客最长等待的超时时间都在容忍阈值内,即可保障顾客在平台的公平性权益。当骑手当前的订单对应的顾客最长等待的超时时间超过了容忍阈值,则认为该顾客得到了不公平的对待,骑手需要优先解决该问题(将订单即时送达),否则系统将不给该骑手分配新的订单;

设置在时隙t时订单i的利润率PE(i,t)如下:PE(i,t)=γ
Δt
×
fee
i
其中Δt是从顾客下单到最终配送花费的时间,γ∈[0,1]是与时间开销有冠的折扣因子,fee
i
是订单i的配送费;注意到如果配送费相同,Δt花的时间越短,订单i的利润率就越高;

确定以所有骑手在平台中的利润率CE的方差CF代表骑手之间利润公平性,计算方式如下:
可见骑手k在时隙t时所赚的利润CE(k,t)由单位劳动时长的收入来衡量,m表示骑手当前总共派送的订单个数,T
work
为骑手工作的小时数;是时隙t时活跃在平台的所有骑手平均的利润率,N
c
是在线的骑手数,从而算出所有骑手的利润方差作为骑手之间的利润公平性;

当商家的产品可以被骑手及时拿到以送给顾客即是公平的;基于此,对商家之间的利润公平MF的定义如下:利润公平MF的定义如下:其中N
o
是商家生产的订单数量,dist表示配送的距离,T
m(i)
表示商品i准备好的时间点,T
d(i)
是送达顾客的时间点,即T
d(i)

T
m(i)
为商家等待骑手取走商品与骑手派送到顾客处的总时间;PV(m,t)越大意味着商品m在时隙t内越不及时,更小的MF代表对商家来说有更公平的平台体验。4.根据权利要求1所述的基于多方公平的即时配送派单系统,其特征在于:所述步骤1中从数据中提取出能影响及时配送派单行为的特征的步骤为:

以每一个订单为锚点,记录订单与其关联的骑手、商家、用户中能影响派单算法的特征;

与订单相关的派单算法特征为:订单价格、订单预计送达时;

与骑手相关的派单算法特征为:骑手当前位置、骑手当前订单量、骑手未来派单路径、骑手累计收入、骑手累计工作时间;

与商家相关的派单算法特征为:商家位置、商家平均等餐时间;

与顾客相关的派单算法特征为:顾客位置、顾客最长容忍等餐时间。5.根据权利要求1所述的基于多方公平的即时配送派单系统,其特征在于:所述步骤2环境仿真模块,基于马尔可夫决策过程设计即时配送场景的仿真环境的步骤为:

代理:每一个骑手被设定为一个代理,与环境进行交互,执行动作并接收环境反馈(奖励)的功能;在本模块中,骑手被设定能接收六个订单,在配送箱内有位置时参与附近订单的接单过程,并在没有接单任务时按照系统设定路径配送已经分配的订单;其中,配送过程分为前往商家位置取餐和前往顾客位置派餐两个步骤。在马尔可夫决策过程中,每个代码都拥有一个实时的状态s
t
,并会执行接单动作a
t


状态S:状态s
t
为描述骑手在当前时刻t与派单行为相关的特征。其中,状态s={P
t
,
ST
t
,D
t
,C
t
},其中P是骑手的个人特征,ST是骑手的未来的竞争特征,D是区域内多方的整体供需特征,而C则是语境特征;P
t
描述骑手在当前时间t的个人特征,P
t
=[loc,n
o
,t
o
,f,route
p
],其中loc表示骑手实时位置,n
o
是骑手当前订单数目,f是一个公平性标志,表示该骑手是否能在不破坏当前订单对应的用户公平的前提下接收新的订单,如果f=0,则骑手则不可以接收新的订单直到当前所有已有订单对应的用户公平能被保障;route
p
表示骑手未来路径,在本模块中使用贪心算法进行预测;ST
t
描述了骑手的竞争特征,表示骑手基于预测的未来路径route
p
所收到的竞争压力,N

【专利技术属性】
技术研发人员:王帅江林曹邹颖梅洛瑜
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1