一种基于广度优化算法的网约车订单分配系统技术方案

技术编号:38315970 阅读:13 留言:0更新日期:2023-07-29 08:57
一种基于广度优化算法的网约车订单分配系统,包括订单发布模块、订单分配模块、策略评估模块;本发明专利技术对乘客发布的订单上传分布式数据库,通过联合Q值强化学习算法匹配适合范围内的司机,司机进行抢单;通过广度优化算法,网约车平台按照策略进行系统派单;构建网约车订单评价体系,根据订单反馈,优化系统派单策略。优化系统派单策略。优化系统派单策略。

【技术实现步骤摘要】
一种基于广度优化算法的网约车订单分配系统


[0001]本专利技术涉及网约车订单分配领域,具体地说,涉及一种基于广度优化算法的网约车订单分配系统。

技术介绍

[0002]随着互联网技术的发展,尤其是移动互联网的迅速普及,让网约车平台成为了人们出行的重要方式之一。有出行需求时,用手机约车,方便快捷,但是目前来说乘客发出订单请求后,需要较长等待时间,而且有时司机距离远,没有匹配到最合适的司机。所以,如何提高订单分配的效率和准确性,已成为网约车平台需要面对的核心问题之一。传统的网约车订单分配过程主要采用的是贪心算法。这种算法虽然简单易行,但是它往往只考虑当前局部最优解,容易导致全局不优,导致资源浪费。同时,它无法解决实际情况中存在的多个客户需求满足的问题,也无法体现复杂的约束条件。所以提出一种广度优化算法的网约车平台派单系统,在满足约束条件的前提下,遍历所有可行解并找到最优解决方案。有效地解决复杂的订单分配问题,提高分配效率和准确性,降低成本和误差率。

技术实现思路

[0003]本专利技术的目的在于提供一种基于广度优化算法的网约车订单分配系统,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,提出了一种基于广度优化算法的网约车订单分配系统,包括订单发布模块、订单分配模块、策略评估模块;首先,对乘客发出的网约车订单请求根据区域划分,上传系统订单数据库,根据联合Q值强化学习算法,匹配出适合该网约车订单的空载网约车,其次,空载的网约车司机对系统匹配的网约车订单进行抢单,且网约车平台通过广度优化算法,建立系统派单策略,将订单派给最合适的空载网约车,最后,网约车平台根据订单反馈,构建订单评价体系,优化系统的订单分配策略。
[0005]进一步的,所述订单发布模块,网约车平台根据自然地理边界进行划分,将不同位置的订单分类进入订单序列。
[0006]进一步的,所述订单发布模块,网约车平台将订单信息上传数据库,在MySQL集群作为数据节点的基础上,利用调度组件Grid构建分布式关系型数据库;
[0007]进一步的,所述订单发布模块,通过联合Q值强化学习算法对网约车订单和网约车司机进行匹配:
[0008]将区域模型通过正方形网格进行划分,正方形的边代表道路,节点代表路网交叉点,定义道路上相应的成本,由天气、日期、环境因素决定;网约车司机完成订单获得奖励,网约车司机空载运动获得零奖励,构建要素函数G:N代表区域模型中的车辆数量,s代表状态集合,A代表联合动作空间,P代表状态转移概率,R代表奖励因子,代表折扣系数;t时刻状态表示为一个三元素元组,表示t时刻状态,l代表车辆位
置,t代表时间,y表示网约车司机成功接单;定义t时刻动作,对行程进行分配,时刻,表示车辆位置在处,在时刻,司机未接单成功,时刻状态表示车辆位置在处,在时刻,司机接单成功;动作=(l,t),所有符合条件动作的空间用联合动作空间A表示;定义奖励函数:定义奖励函数:分布表示各时间步长奖励的折扣系数,分布表示各时间步长的奖励;定义动作价值函数Q,公式如下:E代表期望,表示t时刻状态,表示t时刻联合动作空间,分别表示初始时刻状态和联合动作空间,T表示总时间步长;构建算法的策略,代表将状态映射到动作空间上的分布策略,学习型贪婪策略公式如下:argmax代表找到令取最大值时参数的函数,网约车司机遵循策略,获得预期累计奖励,状态值函数为:t时刻,区域最优联合动作为所有网约车最优动作集合,通过因式分解,联合动作价值函数::分别代表总的状态和总的联合动作空间,联合动作价值函数公式如下:下:是一个历史联合动作,有独立动作函数,、分别代表第i个和第N个动作价值函数,、分别代表第i个和第N个动作,、分别代表第i个和第N个状态,将由分解,确保上上argmax函数得到的联合动作a和上argmax函数得到的独立动作一致,每辆网约车的独立最优动作,是联合最优动作的一部分;针对独立动作价值网络,每辆车的独立动作价值网络根据自身输入,输出动作价值,对所有车辆动作值有如下公式:对所有车辆动作值有如下公式:代表所有网约车的总动作价值,为每辆网约车的动作价值,通过所有车辆独立动作价值网络确定的动作来更新联合动作价值网络;针对状态价值网络,计算状态值V(s),弥补与真实的之间的差距;将联合动作价值函数分解,列出如下公式:
表示网约车独立最优动作,a表示网约车实际动作,当,时,所有网约车独立最优动作的值大于实际动作a的值,就代表全局最优动作;构建全局损失函数公式:s代表当前状态,表示下一状态,r表示状态更新的奖励,表示估算实际动作价值函数的损失函数,代表因式分解的损失函数,代表损失函数的权重系数,其中:其中:其中:f代表时序函数;更新联合动作价值,因式分解损失函数通过联合动作价值引导网约车总动作价值和状态值V(s)更新。
[0009]进一步的,所述订单分配模块,网约车平台通过算法将订单分配给匹配的网约车司机,订单与匹配的网约车司机一对多模式,匹配的网约车司机通过自身抢单,获得订单的执行权。
[0010]进一步的,所述订单分配模块,使用广度优化算法用于网约车订单分配,加快网约车平台在订单与司机的匹配速度:广度优化算法从根节点开始,逐层地向下搜索所有可达的节点,直到找到目标节点为止,广度优化算法遍历所有节点,找到最优节点;广度优化算法在第k层的遍历可由如下公式表示:下公式表示:表示邻接矩阵的转置,分别代表第k层和第k+1层前沿集合,由向量表示,代表所有k层级之前的访问状态,代表第i层前言集合,表示矩阵和向量之间的乘法,表示向量元素之间的乘法,利用函数、将乘客与网约车的距离,车辆利用值进行标准化:车辆利用值进行标准化:车辆利用值进行标准化:d表示乘客与网约车之间的距离,代表网约车的利用值,a、b、c、e是系统设置的常数,D代表所有车辆总数;定义组合规则函数:M代表待分配的网约车集合,由组合规则函数计算派单结果。
[0011]进一步的,所述订单分配模块,网约车平台通过广度优化算法,在乘客发出订单请求后,基于最优化全局时间,构建派单策略,迅速找到最合适的网约车司机,减少乘客的等待时间,提高平台的订单处理效率和乘客体验。该广度优化算法,加强了乘客和网约车的订
单匹配度。
[0012]进一步的,所述订单评估模块,本专利技术构建系统派单策略评价体系,包含乘客等待时间、乘客取消订单数、订单价格、空载距离、司机完成订单数、司机取消订单数;乘客等待时间越长,派单质量越低,乘客取消订单数量多,派单质量低。
[0013]进一步的,所述订单评估模块,网约车平台根据订单的评估结果,对算法中参数进行调整,改进算法模型,优化网约车派单策略。
[0014]本专利技术有益效果:本专利技术提出了一种基于广度优化算法的网约车订单分配系统,包括订单发布模块、订单分配模块、策略评估模块,本专利技术对运营区域进行划分,将不同区域的网约车订单分别上传订单序列,且将所有信息上传数据库,通过联合Q值强化学习算法,对订单匹配一系列司机,司机根据自身情况,进行抢单,自主获得订单执行权,且通过广度优化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于广度优化算法的网约车订单分配系统,其特征在于,包括订单发布模块、订单分配模块、策略评估模块;首先,对乘客发出的网约车订单请求根据区域划分,上传系统订单数据库,根据联合Q值强化学习算法,匹配出适合该网约车订单的空载网约车,其次,空载的网约车司机对系统匹配的网约车订单进行抢单,且网约车平台通过广度优化算法,建立系统派单策略,将订单派给最合适的空载网约车,最后,网约车平台根据订单反馈,构建订单评价体系,优化系统的订单分配策略。2.根据权利要求1所述一种基于广度优化算法的网约车订单分配系统,其特征在于,所述订单发布模块,网约车平台根据自然地理边界进行划分,将不同位置的订单分类进入订单序列。3.根据权利要求1所述一种基于广度优化算法的网约车订单分配系统,其特征在于,所述订单发布模块,网约车平台将订单信息上传数据库。4.根据权利要求1所述一种基于广度优化算法的网约车订单分配系统,其特征在于,所述订单发布模块,通过联合Q值强化学习算法对网约车订单和网约车司机进行匹配,详细过程如下:将区域模型通过正方形网格进行划分,正方形的边代表道路,节点代表路网交叉点,定义道路上相应的成本,由天气、日期、环境因素决定;网约车司机完成订单获得奖励,网约车司机空载运动获得零奖励,构建要素函数G:N代表区域模型中的车辆数量,s代表状态集合,A代表联合动作空间,P代表状态转移概率,R代表奖励因子,代表折扣系数;t时刻状态表示为一个三元素元组,表示t时刻状态,l代表车辆位置,t代表时间,y表示网约车司机成功接单;定义t时刻动作,对行程进行分配,时刻,表示车辆位置在处,在时刻,司机未接单成功,时刻状态表示车辆位置在处,在时刻,司机接单成功;动作=(l,t),所有符合条件动作的空间用联合动作空间A表示;定义奖励函数:,分布表示各时间步长奖励的折扣系数,分布表示各时间步长的奖励;定义动作价值函数Q,公式如下:E代表期望,表示t时刻状态,表示t时刻联合动作空间,分别表示初始时刻状态和联合动作空间,T表示总时间步长;构建算法的策略,代表将状态映射到动作空间上的分布策略,学习型贪婪策略公式如下:,argmax代表找到令取最大值时参数的函数,网约车司机遵循策略,获得预期累计奖励,状态值函数为:,t时刻,区域最优联合动作为所有网约车最优动作集合,通过因式分解,联合动作价值函数:,分别代表总的状态和总的联合动作空间,联合动作价值函数公式如下:
是一个历史联合动作,有独立动作函数,、分别代表第i个和第N个动作价值函数,、分别代表第i个和第N个动作,、分别代表第i个和第N个状态,将由分解,确保上上argmax函数得到的联合动作a和上argmax函数得到的独立动作一致,每辆网约车的独立最优动作,是联合最优动作的一部分;针对独立动作价值网络,每辆车的独立动作价值网络根据自身输入,输出动作价值,对所有车辆动作值有如下...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:云南升玥信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1