一种基于强化学习的定价、分配和重定位联合优化方法技术

技术编号：41156167 阅读：56 留言：0更新日期：2024-04-30 18:20

本发明专利技术公开了一种基于强化学习的定价、分配和重定位联合优化方法，包括：对系统进行建模，定义优化问题，包括目标、约束和决策变量；将优化问题转为多智能体情形下的部分可观测马尔科夫决策过程，确定观测、动作和奖励；基于历史数据训练用于实时估计出行请求数量的动态环境信息感知的需求预测模型；部署多臂赌博机算法，收集定价记录，在线训练定价模型；部署SAC算法，收集司机轨迹经验，在线训练融合重定位的分配模型，穿插使用启发式算法产生的决策结果矫正训练方向。本发明专利技术考虑联合优化定价、订单分配和车辆重定位，基于关联强化学习和多智能体深度强化学习方法求解最优联合决策，能有效提高在线叫车平台的市场效率和乘客出行请求的完成数量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及在线叫车订单分配，尤其涉及一种基于强化学习的定价、分配和重定位联合优化方法、装置和存储介质。

技术介绍

1、信息技术的蓬勃发展促使许多行业的商业模式发生了重大变化，也催生了滴滴、uber和lyft等流行的在线叫车平台。在这些平台的支持下，人们在交通出行方面受到的限制大大减少。在典型的网约车平台中，潜在乘客在提交出行请求即输入出发地和目的地后，会收到一个报价。如果请求者接受该报价，那么他/她的请求会转换为平台中的一个待处理订单。在每个时隙结束时，针对所有有效订单和空闲司机，平台决策两者间的匹配方案。定价、订单分配和车辆重定位是网约车系统中的核心模块，也是影响平台效率和乘客与司机双方体验的重要决策任务。定价利用请求者的价格敏感性来调控客户请求到平台订单的转换，进而会影响后续决策的结果。原因在于定价会改变平台中的订单分布。订单分配的目的是将订单分配给合适的空闲司机。理想的分配决策应该是基于当前的供需分布获得的，并且从长远来看是有益的。车辆重定位的目的是将富余的闲置车辆引导到未来有更多乘客的区域。不难理解，当前的分配决策和重定位决...

【技术保护点】

1.一种基于强化学习的定价、分配和重定位联合优化方法，其特征在于，包括以下步骤：对系统进行建模，定义优化问题，包括目标、约束和决策变量；

2.根据权利要求1所述的一种基于强化学习的定价、分配与重定位联合优化方法，其特征在于，所述对系统进行建模，包括：

3.根据权利要求2所述的一种基于强化学习的定价、分配和重定位联合优化方法，其特征在于，所述定义优化问题，包括：

4.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法，其特征在于，所述确定观测，包括：

5.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法，...

【技术特征摘要】

1.一种基于强化学习的定价、分配和重定位联合优化方法，其特征在于，包括以下步骤：对系统进行建模，定义优化问题，包括目标、约束和决策变量；

2.根据权利要求1所述的一种基于强化学习的定价、分配与重定位联合优化方法，其特征在于，所述对系统进行建模，包括：

3.根据权利要求2所述的一种基于强化学习的定价、分配和重定位联合优化方法，其特征在于，所述定义优化问题，包括：

4.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法，其特征在于，所述确定观测，包括：

5.根据权利要求1所述的一种基于强化学习的定价、分配和重定位联合优化方法，其特征在于，所述基于历史数据训练用于实时估计出行请求数量的动态环境信息感知的...

【专利技术属性】
技术研发人员：杨磊，张忠昀，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人