车辆调度方法、车辆调度服务器及计算机可读的存储介质技术

技术编号:37416422 阅读:8 留言:0更新日期:2023-04-30 09:40
本发明专利技术涉及车辆调度技术领域,尤其是涉及一种车辆调度方法、车辆调度服务器及计算机可读的存储介质,包括将原始数据分化为网格状数据并抽象出每个网格的状态作为输入以此得到个体动作;将联合动作集合或个体状态作为新的输入到双评价网络中获得奖励值;再经过双评价网络与不确定性加权的操作得到目标价值与评价网络的损失函数,并将两个函数进行对比得到最佳的调度方案。本发明专利技术可实现多智能体大规模的协调调度问题,利用不确定性加权模块可以更加保守地估计离群数据集,以避免价值函数的过渡估计问题。在面对复杂场景时表现优异,可以捕捉复杂的动态供需变化,从而实现更好的调度方式。调度方式。调度方式。

【技术实现步骤摘要】
车辆调度方法、车辆调度服务器及计算机可读的存储介质


[0002][0003]本专利技术涉及车辆调度
,尤其是涉及一种车辆调度方法、车辆调度服务器及计算机可读的存储介质。

技术介绍

[0004][0005]近年来,随着互联网高速发展,人们的生活有了很大的改变。“网约车”走入了人们的生活。网约车平台通过将订单派送给空闲的司机,极大的优化了交通资源的分配,并且对于交通拥堵的情况也有所改善。
[0006]合理调度车辆的一个关键挑战就是平衡供应与需求,也就是平衡司机与乘客订单数量关系。大型城市每天会产生数百万的订单,这些大规模的订单其中也会出现许多订单因为附近没有司机而被取消的情况,亦或是司机附近没有合适的订单可以接收,导致交通资源的闲置。如果将这些空闲的司机调度到需求量大的地区,会大大增加订单的响应率,提高运输能力的效用,增加司机的收入以及乘客的满意度。车辆调度是一个复杂的动态过程,当前车辆的调度决策将影响未来交通供需的差距。监督学习方法很难捕捉和模拟这些实时动态的变化,但是强化学习在这一方面表现优异,可以捕捉复杂的动态供需变化,从而进行很好的车辆调度,以保证交通资源的充足利用。在深度强化学习的分类中,主要分为基于价值和基于策略这两种方式。Actor

Critic算法结合了两种方式。
[0007]相关技术中采用上下文深度Q学习以及上下文多智能体Actor

Critic算法,在车辆调度方面取得了优异的结果。但是,在基于价值的强化学习方法(如深度 Q 学习)中,函数逼近错误会导致高估价值估计和次优策略。

技术实现思路

[0008][0009]本专利技术旨在至少解决现有技术中大规模车辆供需不平衡问题,对历史数据进行不确定性加权,以此减少OOD(out

of

distribution data,OOD数据:即离线数据集分布外的数据对)数据对对价值估计的影响,从而对双Critic的结果按一定比例进行调和,以此限制过低估对比带来的影响。为此,本专利技术提出了一种车辆调度方法、车辆调度服务器及计算机可读的存储介质。
[0010]针对本专利技术的流程,做出如下解释,对应的专利技术流程图如图1所示:
[0011]将原始的车辆订单调度数据分化为网格型数据以此来获取初始车辆配送和订单信息,从信息中获取全局状态与对应网格的局部状态。然后将局部状态作为策略网络(Actor网络)的输入得到对应的动作Action,再通过双评价网络(Critic网络)输入对应的Q值:当前状态下选取对应动作可能获得的奖励值和,再通过对这两个不同的价值进行计算得到目标价值,以此来获取每个网格数据对应的车辆调度时间表。再通过对应
匹配的订单进行调度,从而实现最佳的车辆调度操作。在完成一组车辆调度操作之后把当前的状态返回给Actor网络去更新对应的全局状态与局部状态,然后再进行下一步的调度操作。
[0012]根据本专利技术第一方面实施例的车辆调度方法,其中包括:
[0013]获取初始车辆调度信息和订单信息作为原始数据,将原始数据分化为网格状数据:按照地图数据分布,将地图划分为六边形网格,将数据集中的车辆调度信息、订单信息按照经纬度划分到网格之中;将一天的时间信息分为若干个时间片段,每隔一个时间片段执行一次调度,每天在数据集中抽取一天来拟合实际数据,以此来提取全局状态;
[0014]从全局状态中获取每个网格的个体状态作为输入,其中个体状态包含了自身以及周围六个邻居节点的信息;
[0015]个体状态通过全连接网络层得到个体动作(Action):每个网格内的智能体(Agent)是同质的,拥有相同的调度策略;
[0016]将所有智能体的联合动作集合/个体状态作为新的输入,输入到双评价网络(双Critic网络)中得到当前状态下选取对应动作可能获得的奖励值、;将得到的奖励值和输入到调和网络模块中得到目标价值;
[0017]将得到的输入到不确定性加权模块中得到评价网络的损失函数(Critic Loss),将策略网络的损失函数(Actor Loss)、评价网络的损失函数(Critic Loss)进行比对得到最终调度方案。
[0018]根据本专利技术实施例的车辆调度方法,将订单派送问题建模为马尔科夫决策过程,基于此提出了不确定加权调和双Critic算法实现多智能体大规模的协调调度问题:利用不确定性加权模块可以更加保守地估计离群数据集,以避免价值函数的过渡估计问题,并设计了一个调和双Critic架构,将其不确定性加权。车辆调度的目标是提前决定将有多少空闲车辆被调度到需求更大的区域,以便为更多的订单服务;本专利技术实施例面对复杂场景时表现优异,可以捕捉复杂的动态供需变化,从而实现更好的调度方式。
[0019]根据本专利技术的一些实施例,所述将所有智能体的联合动作集合/个体状态作为新的输入,输入到双评价网络(双Critic网络)中得到当前状态下选取对应动作可能获得的奖励值和,将得到的奖励值和输入到调和网络模块中得到目标价值,包括:将同样的动作与状态信息输入到两个相同结构层的Critic网络中,由于训练中的参数不同,会导致两个Critic网络输出不同的价值,再将这两个不同的价值进行比较,其较大值乘以权重系数α,较小值乘以权重系数β再相加得到目标价值。
[0020]通过设计双Critic调和网络,两个Critic网络输出不同的价值,再将这两个不同的价值进行比较,其较大值乘以权重系数α,较小值乘以权重系数β再相加得到目标价值,避免了对于价值的过高估计同时又不限制Q函数的概括能力。
[0021]根据本专利技术的一些实施例,所述将得到的奖励值和输入到调和网络模块中得到目标价值,具体公式如下:
[0022][0023]其中均为权重系数,,。
[0024]根据本专利技术的一些实施例,智能体(Agent)的动作空间包含七个离散动作值,分别指向第i个网络本身和六个邻居网格;将得到的动作Action输入到不确定性加权模块,得到对应的Actor Loss(也就是通过得到的Action的不确定性得到其权重,以降低分布外数据对对价值估计的影响)。
[0025]通过设计不确定性加权模块,对同一模块的不同输入实例保持不变的量,当模块的同方差不确定性较高时,任务对网络权重更新的影响较小,并且以此来平衡Loss与对应梯度的大小。
[0026]根据本专利技术的一些实施例,所述不确定性加权模块包括如下内容:
[0027]模块的不确定性可以通过Q值估计的方差近似得到:
[0028][0029]其中:为模块的不确定性权重,用来估计不同状态

动作对的权重,为数据中的固有噪声,为模型对其预测的不确定程度,为预测均值。就是模型关于离线数据集分布外的数据对(out

of

distribution data,OOD数据)样本的不确定性;
[0030]得到离线数据集分布外的数据对样本的不确定性后,就可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种车辆调度方法,其特征在于,包括:获取初始车辆调度信息和订单信息作为原始数据,将原始数据分化为网格状数据:按照地图数据分布,将地图划分为六边形网格,并将数据集中的车辆调度信息、订单信息按照经纬度划分到网格之中:将一天的时间信息分为若干个时间片段,每隔一个时间片段执行一次调度,每天在数据集中抽取一天来拟合实际数据,以此来提取全局状态;从全局状态中获取每个网格的个体状态作为输入,其中个体状态包含了自身以及周围六个邻居节点的信息;个体状态通过全连接网络层得到个体动作:每个网格内的智能体是同质的,拥有相同的调度策略;将所有智能体的联合动作集合或个体状态作为新的输入,输入到双评价网络中得到当前状态下选取对应动作获得的奖励值和;将得到的奖励值和输入到调和网络模块中得到目标价值;将得到的输入到不确定性加权模块中得到评价网络的损失函数,将策略网络的损失函数、评价网络的损失函数进行比对得到最终调度方案。2.根据权利要求1所述的一种车辆调度方法,其特征在于,所述将所有智能体的联合动作集合或个体状态作为新的输入,输入到双评价网络中得到当前状态下选取对应动作获得的奖励值和,将得到的奖励值和输入到调和网络模块中得到目标价值,包括:将同样的动作与状态信息输入到两个相同结构层的评价网络中,由于训练中的参数不同,会导致两个评价网络输出不同的价值,再将这两个不同的价值进行比较,较大值乘以权重系数α,较小值乘以权重系数β再相加得到目标价值。3.根据权利要求2所述的一种车辆调度方法,其特征在于,所述将得到的奖励值和输入到调和网络模块中得到目标价值,具体公式如下:,其中:均为权重系数,,。4.根据权利要求1所述的一种车辆调度方法,其特征在于,智能体的动作空间包含七个离散动作值,分别指向第i个网络本身和六个邻居网格;将得到的动作输入到不确定性加权模块,得到对应的策略网络的损失函数。5.根据权利要求4所述的一种车辆调度方法,其特征在于,所述不确定性加权模块包括如下内容:模块的不确定性通过Q值估计的方差得到:,其中:为模块的不确定性权重,用来估计不同状态

动作对的权重,为数据中的固有噪声,为模型对其预测的不确定程度,为预测均值;为模型关于离线数据集分布外的数据的不确定性;得到离线数据集分布外的数据的不确定性后,定义基于不确定性加权的策略分布:
,,其中:表示在原...

【专利技术属性】
技术研发人员:黄晓辉成学博杨凯铭汤文亮周云飞
申请(专利权)人:华东交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1