System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的定价、分配和重定位联合优化方法技术_技高网

一种基于强化学习的定价、分配和重定位联合优化方法技术

技术编号:41156167 阅读:11 留言:0更新日期:2024-04-30 18:20
本发明专利技术公开了一种基于强化学习的定价、分配和重定位联合优化方法,包括:对系统进行建模,定义优化问题,包括目标、约束和决策变量;将优化问题转为多智能体情形下的部分可观测马尔科夫决策过程,确定观测、动作和奖励;基于历史数据训练用于实时估计出行请求数量的动态环境信息感知的需求预测模型;部署多臂赌博机算法,收集定价记录,在线训练定价模型;部署SAC算法,收集司机轨迹经验,在线训练融合重定位的分配模型,穿插使用启发式算法产生的决策结果矫正训练方向。本发明专利技术考虑联合优化定价、订单分配和车辆重定位,基于关联强化学习和多智能体深度强化学习方法求解最优联合决策,能有效提高在线叫车平台的市场效率和乘客出行请求的完成数量。

【技术实现步骤摘要】

本专利技术涉及在线叫车订单分配,尤其涉及一种基于强化学习的定价、分配和重定位联合优化方法、装置和存储介质。


技术介绍

1、信息技术的蓬勃发展促使许多行业的商业模式发生了重大变化,也催生了滴滴、uber和lyft等流行的在线叫车平台。在这些平台的支持下,人们在交通出行方面受到的限制大大减少。在典型的网约车平台中,潜在乘客在提交出行请求即输入出发地和目的地后,会收到一个报价。如果请求者接受该报价,那么他/她的请求会转换为平台中的一个待处理订单。在每个时隙结束时,针对所有有效订单和空闲司机,平台决策两者间的匹配方案。定价、订单分配和车辆重定位是网约车系统中的核心模块,也是影响平台效率和乘客与司机双方体验的重要决策任务。定价利用请求者的价格敏感性来调控客户请求到平台订单的转换,进而会影响后续决策的结果。原因在于定价会改变平台中的订单分布。订单分配的目的是将订单分配给合适的空闲司机。理想的分配决策应该是基于当前的供需分布获得的,并且从长远来看是有益的。车辆重定位的目的是将富余的闲置车辆引导到未来有更多乘客的区域。不难理解,当前的分配决策和重定位决策会直接改变司机当前的位置和司机未来的空间分布,间接影响未来决策的结果。同时,司机位置的变更反过来会影响定价决策。一个典型的例子是uber采用的峰时定价机制。

2、显然,定价、订单分配和重定位是密切相关的。它们的相关性表现在两个方面:一是它们都可以调节供需关系,二是它们相互影响彼此的决策。因此,多任务联合优化被提出。它期望联合优化多个相关任务以产生单任务优化无法实现的更好的决策。通常,这能明显优化平台的运营效率。然而,以前的研究要么单独优化定价、订单分配和重定位中的一个,要么联合优化订单分配和重定位(或定价),忽略了这三项任务间的重要相关性。这极大地限制平台和司机的经济收益、乘客出行请求的完成数量,会对平台的长期发展造成不利影响。现有的解决方案尚存在巨大的优化空间。基于此,本专利技术提出联合优化定价、分配和重定位以提高网约车平台的长期效率。然而,这个考虑更全面的问题也更为复杂和困难。其主要挑战有:首先,定价、订单分配和重定位虽然高度相关,但它们在本质上是不同的。要找到一种有效的方式将三者联系起来使它们朝着同一个目标协同优化是十分困难的。换句话说,定价、订单分配和重定位的联合优化很难被建模出来。其次,决策的执行是连续的、不可逆的。只有定价确定了平台中的订单,分配和重定位才能进行。因此,该联合优化问题既涉及多阶段决策,又涉及复杂的协作。第三,整个决策过程具有高度的时空动态性。这种时空动态性是指需求(请求)和供给(司机)在空间和时间两个维度上都在一直动态变化。

3、近年来,不同于传统基于规则的启发式方法,现有针对在线叫车平台决策任务的研究工作大多应用强化学习来获得更好的解决方案。这源于强化学习在决策任务上的优异表现,所作决策往往是长期有益的。这对平台的长期发展更为有利,同时也能充分提高司机的经济收入和乘客的体验。然而,现有基于强化学习和不基于强化学习的方法普遍存在一个问题,即要么单独优化定价、订单分配和重定位中的一个,要么联合优化订单分配和重定位(或定价),忽略了定价、分配和重定位三项任务间的重要相关性,使得所获得的结果可能是次优的,无法获得最优的结果。


技术实现思路

1、本专利技术的目的在于提供一种基于强化学习的定价、分配和重定位联合优化方法、系统、装置和存储介质,是一种基于多模型交互强化学习的解决方案,基于强化学习对定价、分配和重定位三项任务进行联合优化能够获得更好的解,以提高在线叫车平台的长期效率,包括平台和司机的经济效益以及乘客出行请求的完成数量。

2、为实现本专利技术目的,本专利技术提供的一种基于强化学习的定价、分配和重定位联合优化方法,包括以下步骤:

3、对系统进行建模,定义优化问题,包括目标、约束和决策变量;

4、将优化问题转化为多智能体情形下的部分可观测马尔科夫决策过程,确定观测、动作和奖励;

5、基于历史数据训练用于实时估计出行请求数量的动态环境信息感知的需求预测模型;

6、在系统中部署多臂赌博机算法,收集定价记录,在线训练定价模型;

7、在系统中部署sac算法,收集司机轨迹经验,在线训练融合重定位的分配模型,中间穿插使用启发式算法产生的决策结果矫正训练方向。

8、所述对系统进行建模,包括:

9、考虑服务范围为一个城市的在线叫车系统,它包含一组状态不断动态变化的司机和一组由请求转换而来的待处理订单;

10、将城市划分为g个均匀的网格,得到网格化的地图

11、将一天离散为t个等长的时隙,记为

12、定义i表示在线叫车平台在时隙t收到的出行请求,用元组<oi,di,pi>表示,其中,oi表示请求的起点,di表示请求的目的地,pi表示请求的基础价(起点oi和目的地di都是由经度和纬度组成的二元组);

13、定义由请求i在顾客确认交易即同意平台的报价后转化而得的待处理订单为j,用元组<oj,dj,pj>表示,其中,oi表示订单的起点,di表示订单的目的地,pj表示订单的成交价格(即pi与多臂赌博机定价算法确定的定价系数ci的乘积);

14、定义κ表示平台中的一个司机,用元组表示,其中,和分别表示司机κ在时隙t的状态和位置,表示自司机κ完成上一个订单以来的空闲时长;

15、注意,每个司机κ有两种状态,即占用和空闲,且对于任意时隙t,只有处于空闲状态的司机才能参与决策过程;

16、平台作为决策中心,为每个实时产生的出行请求i进行定价,并在每个时隙t的末尾求解订单与司机间的匹配决策;

17、总商品交易额是所有已完成订单的成交价格,表示为:

18、

19、式中,表示在时隙t内产生并最终成功交易的出行请求,表示在时隙t内成功交易的订单;

20、成功率为已完成请求占所有请求的百分比,表示为:

21、

22、式中,表示在时隙t内产生的出行请求。

23、进一步地,所述定义优化问题,包括:

24、将定价、分配和重定位的联合优化建模为一个两阶段的决策优化问题,其中,第一阶段为上下文特征感知的实时动态定价,第二阶段为融合重定位的订单分配;

25、对于每个请求i,其期望立即收益表示为:

26、u(xi,ci)=f(xi,ci)cipi=f(xi,ci)ci(μdisi+ωduri)

27、其中,f(xi,ci)表示请求i在定价系数ci下转换为订单的概率即请求者(乘客)接受交易价格cipi的概率,xi表示请求i的上下文特征,disi和duri分别表示请求i的预计行程距离和预计行程时间,μ和ω分别表示单位距离费用和单位时间费用;

28、对于每个请求i,如果其成功地转换成订单,并在时隙t被司机κ完成,那么其收益为其即时收益和重定位司机κ的未来影响的总和,表示本文档来自技高网...

【技术保护点】

1.一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,包括以下步骤:对系统进行建模,定义优化问题,包括目标、约束和决策变量;

2.根据权利要求1所述的一种基于强化学习的定价、分配与重定位联合优化方法,其特征在于,所述对系统进行建模,包括:

3.根据权利要求2所述的一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,所述定义优化问题,包括:

4.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,所述确定观测,包括:

5.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,所述基于历史数据训练用于实时估计出行请求数量的动态环境信息感知的需求预测模型,包括:

6.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,所述在线训练定价模型,包括:

7.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,所述在线训练融合重定位的分配模型,包括:

8.一种基于强化学习的定价、分配和重定位联合优化系统,其特征在于,用于实现权利要求1-7任一所述的方法,包括以下模块:

9.一种基于强化学习的定价、分配和重定位联合优化装置,其特征在于,包括:

10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。

...

【技术特征摘要】

1.一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,包括以下步骤:对系统进行建模,定义优化问题,包括目标、约束和决策变量;

2.根据权利要求1所述的一种基于强化学习的定价、分配与重定位联合优化方法,其特征在于,所述对系统进行建模,包括:

3.根据权利要求2所述的一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,所述定义优化问题,包括:

4.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,所述确定观测,包括:

5.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法,其特征在于,所述基于历史数据训练用于实时估计出行请求数量的动态环境信息感知的...

【专利技术属性】
技术研发人员:杨磊张忠昀
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1