一种基于强化学习的出租车调度双目标优化方法及系统技术方案

技术编号:41117074 阅读:14 留言:0更新日期:2024-04-25 14:07
本发明专利技术公开了一种基于强化学习的出租车调度双目标优化方法及系统,其中方法包括以下步骤:构建虚拟城市环境,基于所述虚拟城市环境进行环境状态的搭建;基于所述环境状态建立调度目标函数,并将所述目标函数转化为马尔可夫决策模型;获取现实环境数据,并基于A2C强化学习框架和所述马尔可夫决策模型进行出租车调度迭代优化,得到优化结果。本发明专利技术通过综合考虑优化乘客和司机角度的目标,将增加收入和减少等待时间作为出租车调度优化的双目标。同时基于A2C的强化学习框架,通过对所有代理的梯度进行平均,可以减少训练过程中的方差,从而提高算法的稳定性。

【技术实现步骤摘要】

本专利技术属于车辆调度,具体涉及一种基于强化学习的出租车调度双目标优化方法及系统


技术介绍

1、智慧城市交通系统随着城市化进程的不断推进而逐渐发展。出租车是城市居民出行交通系统中的重要一环,因其更加舒适的乘坐环境、更灵活的路径规划以及更具针对性的服务,有着相较于巴士、地铁等公共交通工具而言更大的优势,也是目前城市居民个性化出行的首选方式。然而,随着近年来城市人口的激增,城市居民的出行需求与可用出租车资源间的不平衡问题也日趋明显,这引发了社会对于出租车调度问题(taxi dispatching)的思考与讨论。

2、为了优化出租车调度,当前的出租车调度算法多为基于模型的调度方法,策略大多基于对现实车辆与乘客之间响应关系的建模,缺少了对车辆与乘客动态变化的考虑。且城市交通网络是一个复杂的系统,出租车调度优化的目标设定也是一个复杂的问题。一方面,从打车的乘客角度出发,我们需要考虑尽可能减少乘客的等待时间;另一方面,从出租车公司或司机的角度出发,我们需要考虑尽可能降低出租车的空驶率从而提高司机的收入。


术实现思路<本文档来自技高网...

【技术保护点】

1.一种基于强化学习的出租车调度双目标优化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于强化学习的出租车调度双目标优化方法,其特征在于,所述虚拟城市环境的构建方法包括:

3.根据权利要求1所述一种基于强化学习的出租车调度双目标优化方法,其特征在于,所述环境状态包括:乘客需求信息和出租车信息;

4.根据权利要求1所述一种基于强化学习的出租车调度双目标优化方法,其特征在于,所述调度目标函数包括:乘客目标函数和司机目标函数;

5.根据权利要求3所述一种基于强化学习的出租车调度双目标优化方法,其特征在于,所述马尔可夫决策模型包括:...

【技术特征摘要】

1.一种基于强化学习的出租车调度双目标优化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于强化学习的出租车调度双目标优化方法,其特征在于,所述虚拟城市环境的构建方法包括:

3.根据权利要求1所述一种基于强化学习的出租车调度双目标优化方法,其特征在于,所述环境状态包括:乘客需求信息和出租车信息;

4.根据权利要求1所述一种基于强化学习的出租车调度双目标优化方法,其特征在于,所述调度目标函数包括:乘客目标函数和司机目标函数;

5.根据权利要求3所述...

【专利技术属性】
技术研发人员:张凯杨明博董宇涵曹阳
申请(专利权)人:清华珠三角研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1