当前位置: 首页 > 专利查询>清华大学专利>正文

多车辆路径规划方法及装置制造方法及图纸

技术编号:39580233 阅读:12 留言:0更新日期:2023-12-03 19:31
本发明专利技术提供一种多车辆路径规划方法及装置

【技术实现步骤摘要】
多车辆路径规划方法及装置


[0001]本专利技术涉及物流配送中的车辆路径规划
,特别是指一种多车辆路径规划方法及装置


技术介绍

[0002]物流行业是一种兼顾成本和服务质量的服务行业

在为客户提供物流配送服务时,物流服务提供者需要提供高效的准时的服务,同时尽可能的降低服务的成本

[0003]物流配送是物流服务的关键环节,是指根据客户对货物运输的时间和运量等的要求,将货物从出发地运送到目的地的过程

物流服务提供者一般在满足客户要求的前提下,为了降低配送成本,尽量减少配送用车辆的行驶时间

[0004]车辆路径规划问题是解决物流配送的经典问题,也是运筹学的经典问题,其目标是给定一组具有不同配送需求量的站点和一组有容量等限制的配送车辆,求取完成配送时配送车辆的行驶路径,使所有车辆总的行驶时间
(
行驶路径
)
最短

[0005]相关技术中,在某个设定的车辆总数量的前提下,通过启发式算法来进行多车辆路径规划,其派送策略的生成速度较慢,并且由于是针对特定的车辆总数量进行路径规划,因此不能根据实际情况动态调整使用的车辆数量,缺乏灵活性


技术实现思路

[0006]本专利技术要解决的技术问题是提供一种多车辆路径规划方法及装置,对访问多站点的车辆数量和路径进行规划,能够提高路径规划策略的生成速度,并能够提高路径规划的灵活性

[0007]为解决上述技术问题,本专利技术的实施例提供技术方案如下:
[0008]一方面,提供一种多车辆路径规划方法,用于规划多车辆访问多站点的路径,所述多站点包括待派送站点和待捡收站点,所述方法包括:
[0009]车数决策步骤,利用预先训练的车数决策模型,确定访问多站点的车辆数量,所述车数决策模型的输入包括每个站点的嵌入表征向量和全局表征向量,输出为车辆的目标数量;
[0010]调度步骤,利用预先训练的策略模型计算未被访问的站点的备选概率值,所述策略模型的输入包括所述车辆的目标数量

每个站点的嵌入表征向量和全局表征向量,输出为去往每个站点以及停留原地的备选概率值;将备选概率值最大的动作分配给当前被调度车辆,作为当前被调度车辆的下一步动作;
[0011]更新步骤,根据下一步动作对应的站点的货物量更新当前被调度车辆的剩余容量和每个站点的访问状态;
[0012]判断步骤,判断是否存在未被访问的站点,如果存在未被访问的站点,返回所述调度步骤,如果不存在未被访问的站点,转向策略输出步骤;
[0013]所述策略输出步骤,根据为每个车辆分配的站点输出路径规划策略,所述路径规
划策略包括所述车辆的目标数量以及每一车辆访问站点的顺序

[0014]本专利技术的可选实施例中,还包括训练所述车数决策模型和策略模型的步骤,训练所述车数决策模型和策略模型的步骤包括:
[0015]获取步骤,获取多组训练数据,每组所述训练数据包括每个站点的位置

每个站点待投递的货物数量

每个站点待拾取的货物数量

货物的起始地和目的地和车辆的容量;
[0016]初始化步骤,初始化车数决策模型和策略模型的参数,搭建车数决策模型和策略模型;
[0017]训练步骤,将所述多组训练数据输入所述车数决策模型,输出每组训练数据对应的车辆数量;将所述多组训练数据和每组训练数据对应的车辆数量输入所述策略模型,输出与每组训练数据对应的派送策略序列以及每个派送策略中各客户站点被选取的概率;利用所述派送策略序列计算所有车辆的总路程,以及局部解对应的局部路程;计算所述派送策略序列的评估值函数网络模型,所述评估值函数网络模型的输入为所述派送策略序列的每步局部解,输出为每步局部评估值;基于值函数更新所述策略模型和所述评估值函数;根据所述所有车辆的总路程和所述训练数据对应的车辆数量计算奖励值,根据所述奖励值更新所述车数决策模型;
[0018]重复所述训练步骤
N
次后,保存所述车数决策模型和策略模型,
N
为正整数

[0019]本专利技术的可选实施例中,所述基于值函数更新所述策略模型和所述评估值函数包括:
[0020]计算所述策略模型和所述评估值函数的损失函数
L

[0021]对所述损失函数
L
求梯度;
[0022]利用梯度下降法更新所述策略模型和所述评估值函数的参数

[0023]本专利技术的可选实施例中,所述调度步骤还包括:
[0024]将货物量超过当前被调度车辆的剩余容量的站点设为无法访问的站点

[0025]本专利技术的可选实施例中,所述更新步骤包括:
[0026]根据分配给当前被调度车辆的站点的待派送货物量或待捡收货物量以及当前被调度车辆的当前容量更新当前被调度车辆的剩余容量

[0027]本专利技术的可选实施例中,所述待派送站点与所述待捡收站点一一对应,若所述待捡收站点未被访问,则对应的待派送站点为无法访问的站点,所述将备选概率值最大的动作分配给当前被调度车辆包括:
[0028]删除无法访问的站点,将前往剩余站点和停留原地中备选概率值最大的动作分配给当前被调度车辆

[0029]本专利技术的可选实施例中,当多个车辆被分配同一站点时,指派备选概率值最大的车辆前往该站点,其他车辆保留在原地

[0030]本专利技术实施例还提供了一种多车辆路径规划装置,用于规划多车辆访问多站点的路径,所述多站点包括待派送站点和待捡收站点,所述装置包括:
[0031]车数决策模块,用于利用预先训练的车数决策模型,确定访问多站点的车辆数量,所述车数决策模型的输入包括每个站点的嵌入表征向量和全局表征向量,输出为车辆的目标数量;
[0032]调度模块,用于利用预先训练的策略模型计算未被访问的站点的备选概率值,所
述策略模型的输入包括所述车辆的目标数量

每个站点的嵌入表征向量和全局表征向量,输出为去往每个站点以及停留原地的备选概率值;将备选概率值最大的动作分配给当前被调度车辆,作为当前被调度车辆的下一步动作;
[0033]更新模块,用于根据下一步动作对应的站点的货物量更新当前被调度车辆的剩余容量和每个站点的访问状态;
[0034]判断模块,用于判断是否存在未被访问的站点,如果存在未被访问的站点,返回所述调度模块,如果不存在未被访问的站点,转向策略输出模块;
[0035]所述策略输出模块,用于根据为每个车辆分配的站点输出路径规划策略,所述路径规划策略包括所述车辆的目标数量以及每一车辆访问站点的顺序

[0036]本专利技术的可选实施例中,所述装置还包括训练模块,用于训练所述车数决策模型和策略模型,所述训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多车辆路径规划方法,其特征在于,用于规划多车辆访问多站点的路径,所述多站点包括待派送站点和待捡收站点,所述方法包括:车数决策步骤,利用预先训练的车数决策模型,确定访问多站点的车辆数量,所述车数决策模型的输入包括每个站点的嵌入表征向量和全局表征向量,输出为车辆的目标数量;调度步骤,利用预先训练的策略模型计算未被访问的站点的备选概率值,所述策略模型的输入包括所述车辆的目标数量

每个站点的嵌入表征向量和全局表征向量,输出为去往每个站点以及停留原地的备选概率值;将备选概率值最大的动作分配给当前被调度车辆,作为当前被调度车辆的下一步动作;更新步骤,根据下一步动作对应的站点的货物量更新当前被调度车辆的剩余容量和每个站点的访问状态;判断步骤,判断是否存在未被访问的站点,如果存在未被访问的站点,返回所述调度步骤,如果不存在未被访问的站点,转向策略输出步骤;所述策略输出步骤,根据为每个车辆分配的站点输出路径规划策略,所述路径规划策略包括所述车辆的目标数量以及每一车辆访问站点的顺序
。2.
根据权利要求1所述的多车辆路径规划方法,其特征在于,还包括训练所述车数决策模型和策略模型的步骤,训练所述车数决策模型和策略模型的步骤包括:获取步骤,获取多组训练数据,每组所述训练数据包括每个站点的位置

每个站点待投递的货物数量

每个站点待拾取的货物数量

货物的起始地和目的地和车辆的容量;初始化步骤,初始化车数决策模型和策略模型的参数,搭建车数决策模型和策略模型;训练步骤,将所述多组训练数据输入所述车数决策模型,输出每组训练数据对应的车辆数量;将所述多组训练数据和每组训练数据对应的车辆数量输入所述策略模型,输出与每组训练数据对应的派送策略序列以及每个派送策略中各客户站点被选取的概率;利用所述派送策略序列计算所有车辆的总路程,以及局部解对应的局部路程;计算所述派送策略序列的评估值函数网络模型,所述评估值函数网络模型的输入为所述派送策略序列的每步局部解,输出为每步局部评估值;基于值函数更新所述策略模型和所述评估值函数;根据所述所有车辆的总路程和所述训练数据对应的车辆数量计算奖励值,根据所述奖励值更新所述车数决策模型;重复所述训练步骤
N
次后,保存所述车数决策模型和策略模型,
N
为正整数
。3.
根据权利要求2所述的多车辆路径规划方法,其特征在于,所述基于值函数更新所述策略模型和所述评估值函数包括:计算所述策略模型和所述评估值函数的损失函数
L
;对所述损失函数
L
求梯度;利用梯度下降法更新所述策略模型和所述评估值函数的参数
。4.
根据权利要求1所述的多车辆路径规划方法,其特征在于,所述调度步骤还包括:将货物量超过当前被调度车辆的剩余容量的站点设为无法访问的站点
。5.
根据权利要求1所述的多车辆路径规划方法,其特征在于,所述更新步骤包括:根据分配给当前被调度车辆的站点的待派送货物量或待捡收货物量以及当前被调度车辆的当前容量更新当前被调度车辆的剩余容量
。6.
根据权利要求1所述的多车辆路径规划方法,其特征在于,所述待派送站点与所述待
捡收站点一一对应,若所述待捡收站点未被访问,则对应的待派送站点为无法访问的站点,所述将备选概率值最大的动作分配给当前被调度车辆包括:删除无法访问的站点,将前往剩余站点和停留原地中备选概率值最大的动作分配给当前被调度车辆
。7.
根据权利要求1所述的多车辆路径规划方法,其特征在于,当多个车辆被分配同...

【专利技术属性】
技术研发人员:李勇宗泽方庄云麟耿璐郑萌
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1