当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于深度强化学习的出租车调度方法及系统技术方案

技术编号:26174830 阅读:60 留言:0更新日期:2020-10-31 14:05
本发明专利技术涉及一种基于深度强化学习的出租车调度方法及系统,所述系统包括:区域构建模块、需求预测模块、车辆调度模块、模拟器;所述方法包括:S1:形成区域网络;S2:预测任意区域在任意的时间中将会出现的订单数量;S3:计算出一个区域总的车辆供应;获取每个区域的需求/供应状态;S4:将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中,得到该车辆的调度策略,确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。本发明专利技术实现对空闲出租车进行调度,增加了订单匹配成功率,减少了乘客的等待时间,提高了出租车使用率。

【技术实现步骤摘要】
一种基于深度强化学习的出租车调度方法及系统
本专利技术涉及人工智能
,更具体地,涉及一种基于深度强化学习的出租车调度方法及系统。
技术介绍
新兴的大型现代乘车平台的出现极大的有益于我们的日常旅行,它允许乘客提前预订旅行计划并实时的将可用出租车与乘车请求进行匹配。尽管这样的系统每天可以为城市中数百万个乘车请求和数万辆出租车提供服务,但是由于部分乘客附近可能缺乏可用的出租车,因此每天仍然会造成大量请求没能被服务到。另一方面,在其他地方,可能又会出现大量的空闲出租车在寻找乘客,造成出租车资源的浪费。在城市中不同地理位置之间的出租车供需不平衡现象普遍存在,这将严重降低整个城市出租车系统的效率并导致糟糕的用户体验。出租车调度可通过主动将可用的空闲出租车重新分配到某些区域来更好的满足未来的乘车要求,从而平衡出租车需求和供应之间的差异。高效的出租车调度策略可以显着增加订单匹配成功率,减少乘客的等待时间,提高出租车使用率。现有的方法有利用多维数据卷积合成多通道图像,通过卷积神经网络输入,利用深度强化学习模型及滚动时域控制(recedinghori本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的出租车调度方法,其特征在于,所述方法包括以下步骤:/nS1:根据道路网络的拓扑结构构建出体现道路网络联通性的区域聚类,根据区域中心之间在道路网络上的距离远近关系确定邻居,从而形成区域网络;/nS2:根据形成的区域网络应用基于图卷积神经网络所构建的需求预测模型利用历史订单数据,预测任意区域在任意的时间中将会出现的订单数量;/nS3:根据调度系统实时得到的数据计算出一个区域总的车辆供应量;/n根据一个区域总的订单数量的预测值和总的车辆供应量,获取每个区域的需求/供应状态;/nS4:将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中,得到该车辆的调度策略,确...

【技术特征摘要】
1.一种基于深度强化学习的出租车调度方法,其特征在于,所述方法包括以下步骤:
S1:根据道路网络的拓扑结构构建出体现道路网络联通性的区域聚类,根据区域中心之间在道路网络上的距离远近关系确定邻居,从而形成区域网络;
S2:根据形成的区域网络应用基于图卷积神经网络所构建的需求预测模型利用历史订单数据,预测任意区域在任意的时间中将会出现的订单数量;
S3:根据调度系统实时得到的数据计算出一个区域总的车辆供应量;
根据一个区域总的订单数量的预测值和总的车辆供应量,获取每个区域的需求/供应状态;
S4:将任意空闲车辆所在区域和邻居区域的状态输入训练好的出租车调度模型中,得到该车辆的调度策略,确定该车是继续留在当地区域还是调度到系统指定的邻居区域中。


2.根据权利要求1所述的基于深度强化学习的出租车调度方法,其特征在于,构建区域聚类的方法包括以下步骤:
S1.1:将选定城市的道路网络建模为有向图G(V,E),其中每个顶点v∈V代表一个地理位置即道路交叉点,每个边e∈E代表一个路段,每个边e都通过计算cost(e)得到旅行成本作为边e的权重;
S1.2:将整个城市按照相同间隔的经纬度划分成M个矩形格子,对于每一个格子,在图G中寻找距离当前格子地理中心最近的顶点v作为每一个区域的中心顶点,同样,边e也连同其中心顶点v一起被分类给对应的区域;
每个区域Z维护以下的信息:区域中心顶点Zc,顶点集Zv,边集Ze和总权重Zw;
将所有未分配的顶点v,未分配的顶点以集合U表示,分类给各个区域Z={Zi,i=1,…,M};
S1.3:选择所有区域Z中总权重Zw最小的区域为目标区域Ztar以添加新的顶点v和边e;
S1.4:遍历所有未分配的顶点v,找出最小的顶点v到目标区域Ztar的顶点-区域距离dis(v,Ztar);此距离被定义为顶点v到区域中心Zc的旅行成本和顶点v到区域Z内距离顶点v最近的顶点v′的旅行成本之和;
如果顶点-区域距离dis(v,Ztar)小于等于最大区域范围ε,则添加顶点v进入目标区域的顶点集并添加源头始于顶点v的边e进目标区域的边集接着目标区域的总权重将加上顶点-区域距离dis(v,Ztar);
然后在未分配的顶点集合U中删除此顶点v;如果此顶点-区域距离大于最大区域范围ε则选择下一个目标区域,并返回S1.3;
S1.5:重复S1.3和S1.4直到未分配顶点集U为空为止,将所有顶点V根据道路网络连通性较为均匀的分类为地图上的M个区域;
对于给定的区域Zi,将前κ个最近的区域定义为其邻居NZi={Zj,j=1,…,κ},其中两个区域之间的距离被计算为道路网络上两个区域对应的中心顶点之间的旅行成本。


3.根据权利要求2所述的基于深度强化学习的出租车调度方法,其特征在于,顶点-区域距离的计算公式如下:





4.根据权利要求2或3所述的基于深度强化学习的出租车调度方法,其特征在于,S2的具体过程如下:
将地图上的每个区域定义为一个顶点,如果两个区域紧邻,则会形成一条边;给定区域分布,构建区域图GZ=(Zall,Α),其中Zall是所有区域的集合,所有区域的总数表示为|Z|,并且Α∈R|Z|×|Z|是区域邻接矩阵,指示区域之间的连接;以此计算区域图的拉普拉斯矩阵,计算方法如下:



其中I∈R|Z|×|Z|是图GZ的单位矩阵,D∈R|Z|×|Z|是图GZ的度矩阵;
图卷积神经网络函数定义为:
Hλ+1=σ(LHλWλ)
其中Hλ表示第λ层中的特征,Wλ是第λ层的可训练的权重矩阵,激活函数σ采用修正线性单元;
将影响每个区域Zi内出租车订单的因素合并表示为特征向量其中分别包括该区域预测时间的前三个时隙各自的订单数量、预测时间的星期、小时、分钟、天气类型、温度、风向和风速;
根据消息传递函数捕获局部和全局的结构模式,用于最终需求预测;
接着,将所有特征经过正则化处理后输入进图卷积神经网络的输入层H0进行预测,输入|Z|×10的特征矩阵,输出值为|Z|×1的预测值矩阵,代表预测的每个区域Zi下一个时隙的订单数量。


5.根据权利要求4所述的基于深度强化学习的出租车调度方法,其特征在于,车辆供应量计算公式为:



其中分别表示在时隙tj时在区域Zi内下车的出租车的数量;在时隙tj时停留在Zi区域内的可用出租车的数量;以及在时隙tj-1被调度到区域Zi,并将在时隙tj到达区域Zi的出租车的数量。


6.根据权利要求5所述的基于深度强化学习的出租车调度方法,其特征在于,出租车调度模型的训练过程如下:
S4.1:基于模拟器将深度Q网络内的经验回放池中所有上一个时隙的经验中的st和rt补全,其中st由新的时隙下系统观测得到,rt由奖励函数得到;在上一个时隙t-1中的下一时隙为t,此时的st为t时隙的状态信息,rt为t时隙下关于st和at的奖励;
S4.2:将过渡元组(st,at,rt+1,st+1)储存在DQN模型内的经验回放池中,其中rt+1和st+1暂时无法得到,因此暂时保留等待后续补全;
S4.3:每当经过B个时隙后进行...

【专利技术属性】
技术研发人员:刘志丹李江舟伍楷舜
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1