一种基于强化学习的烟草物流调度方法技术

技术编号:34633467 阅读:9 留言:0更新日期:2022-08-24 15:06
本发明专利技术涉及一种基于强化学习的烟草物流调度方法,包括:S1、随机生成二维欧式图上物流配送的仓库和各个节点的物流信息;S2、基于编码

【技术实现步骤摘要】
一种基于强化学习的烟草物流调度方法


[0001]本专利技术涉及物流调度运输
,尤其是涉及一种基于强化学习的烟草物流调度方法。

技术介绍

[0002]目前,工业类企业的物流运输调度水平是提高核心竞争力的主要因素。现如今还有许多烟草物流运输公司使用人工调度的方法来进行物流运输,耗费了大量的人力,同时这种原始的调度方式在面临大量订单的情况下有着极低的效率,导致了烟草物流运输公司服务水平低下。虽然部分烟草物流运输公司使用人工设计的传统启发式方法来进行物流调度,但是这类方法无法在线实时给出物流调度方案,无法满足物流运输调度的快速性的要求。
[0003]烟草物流调度属于车辆路径优化问题的范畴,这类问题是是世界顶级物流公司关注的核心问题,在运筹学领域中,车辆路径优化问题被定义为车辆路径问题,即VRP(Vehicle Routing Problem)。VRP并不是特指一个问题,而是一类组合优化问题的统称。一般情况下,VRP是指根据客户的需求和现有车辆,根据物流运输方案,在满足客户需求的前提下使得总共的运输成本最低。
[0004]如今大部分的烟草物流运输公司正在探讨新的物流调度方法。将相关领域的方法与烟草物流调度相结合,专利技术一种操作简单、效率较高的方法来满足和优化烟草物流运输公司的物流调度水平,是烟草物流运输公司急需解决的核心问题之一。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于强化学习的烟草物流调度方法,以在线实时地快速得到物流运输调度方案,提高物流运输效率,节约人工成本。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]一种基于强化学习的烟草物流调度方法,使用随机生成的训练数据通过强化学习算法来训练网络模型,使用训练后的网络模型给出仓库和各个节点调度排序概率矩阵,最后结合搜索算法来得到最终的物流运输调度方案,具体包括以下步骤:
[0008]S1、随机生成二维欧式图上物流配送的仓库和各个节点的物流信息;
[0009]S2、基于编码

聚合

解码的架构构建深度注意力卷积网络,将仓库和各个节点的物流信息输入深度注意力卷积网络,得到仓库和各个节点的调度排序概率矩阵;
[0010]S3、根据调度排序概率矩阵设置强化学习参数,根据强化学习参数对深度注意力卷积网络进行训练;
[0011]S4、获取仓库和各个节点的实时的订单需求信息,并输入到完成训练的深度注意力卷积网络中,得到仓库和各个节点的实时调度排序概率矩阵;
[0012]S5、对仓库和各个节点的实时调度排序概率矩阵进行波束搜索,得到物流运输调
度方案。
[0013]所述仓库和各个节点的物流信息包括仓库和各个节点的坐标数据以及各个节点的订单需求信息。
[0014]所述深度注意力卷积网络包括编码网络、聚合网络和解码网络。
[0015]进一步地,所述深度注意力卷积网络中编码网络的运行过程包括以下步骤:
[0016]S11、对仓库和各个节点的坐标数据分别进行初始化处理,得到仓库和各个节点的初始嵌入信息;
[0017]S12、对初始嵌入信息进行卷积降维,获得各个节点的深层次特征;
[0018]S13、根据深层次特征对仓库和各个节点的邻居节点进行采样,获得图上的结构化信息并进行传播;
[0019]S14、对传播后的信息进行线性降维,得到仓库和各个节点的最终嵌入信息。
[0020]进一步地,所述深度注意力卷积网络中聚合网络的运行过程为对仓库和各个节点的最终嵌入信息进行聚合,得到图嵌入信息。
[0021]进一步地,所述深度注意力卷积网络中解码网络的运行过程包括以下步骤:
[0022]S21、对特定节点的最终嵌入信息、车辆剩余容量和图嵌入信息进行拼接操作,得到上下文节点嵌入信息;
[0023]S22、根据上下文节点嵌入信息对各个节点进行采样,汇集各个节点的采样结果,得到中间节点嵌入信息;
[0024]S23、将中间节点嵌入信息与各个节点的最终嵌入信息进行比较,得到各个节点的输出概率,继而得到仓库和各个节点的调度排序概率矩阵。
[0025]所述步骤S3中强化学习参数包括初始嵌入信息的维数、最终嵌入信息的维数、卷积降维后的维数、各个节点的邻居节点采样后的维数、第一次特征传播后的维数、第二次特征传播后的维数、各个节点的邻居节点的采样次数和特征循环提取的次数。
[0026]所述步骤S3中深度注意力卷积网络的训练过程包括以下步骤:
[0027]S31、获取深度注意力卷积网络的损失函数,输入仓库和各个节点的坐标数据以及各个节点的订单需求信息,由深度注意力卷积网络得到的调度排序概率矩阵计算的物流调度方案中总共的路径长度;
[0028]S32、根据物流调度方案中总共的路径长度,对深度注意力卷积网络的参数进行更新,并记录更新的次数;
[0029]S33、判断更新的次数是否达到预设的次数阈值,若是则深度注意力卷积网络训练完成,否则转至步骤S32继续更新参数。
[0030]进一步地,所述步骤S31中深度注意力卷积网络的损失函数的公式如下所示:
[0031][0032][0033]其中,s是一个样例,解为π,i是深度注意力卷积网络输出节点的时刻,π
i
是在i时刻深度注意力卷积网络输出的节点,即输出概率最大的节点,θ是深度注意力卷积网络的可训练参数,p
θ
(π|s)是定义的随机策略,J(θ|s)为根据深度注意力卷积网络对样例s求出的
调度排序概率矩阵贪婪解码后的路径长度。
[0034]进一步地,所述步骤S32中通过梯度反向传播算法更新深度注意力卷积网络的参数。
[0035]与现有技术相比,本专利技术具有以下有益效果:
[0036]本专利技术使用随机生成的仓库和各个节点的物流信息,通过强化学习算法来训练深度注意力卷积网络,使用训练后的网络模型给出仓库和各个节点调度排序概率矩阵,最后结合搜索算法来得到最终的物流运输调度方案,能够在线实时给出物流调度方案,满足物流运输调度的快速性的要求,与现有技术中使用的传统启发式方法相比,有效提高了物流运输效率。
附图说明
[0037]图1为本专利技术的流程示意图;
[0038]图2为本专利技术深度注意力卷积网络的结构示意图;
[0039]图3为本专利技术强化学习训练的流程示意图。
具体实施方式
[0040]下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。
[0041]实施例
[0042]如图1所示,一种基于强化学习的烟草物流调度方法,使用随机生成的训练数据通过强化学习算法来训练网络模型,使用训练后的网络模型给出仓库和各个节点调度排序概率矩阵,最后结合搜索算法来得到最终本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的烟草物流调度方法,其特征在于,具体包括以下步骤:S1、随机生成二维欧式图上物流配送的仓库和各个节点的物流信息;S2、基于编码

聚合

解码的架构构建深度注意力卷积网络,将仓库和各个节点的物流信息输入深度注意力卷积网络,得到仓库和各个节点的调度排序概率矩阵;S3、根据调度排序概率矩阵设置强化学习参数,根据强化学习参数对深度注意力卷积网络进行训练;S4、获取仓库和各个节点的实时的订单需求信息,并输入到完成训练的深度注意力卷积网络中,得到仓库和各个节点的实时调度排序概率矩阵;S5、对仓库和各个节点的实时调度排序概率矩阵进行波束搜索,得到物流运输调度方案。2.根据权利要求1所述的一种基于强化学习的烟草物流调度方法,其特征在于,所述仓库和各个节点的物流信息包括仓库和各个节点的坐标数据以及各个节点的订单需求信息。3.根据权利要求2所述的一种基于强化学习的烟草物流调度方法,其特征在于,所述深度注意力卷积网络包括编码网络、聚合网络和解码网络。4.根据权利要求3所述的一种基于强化学习的烟草物流调度方法,其特征在于,所述深度注意力卷积网络中编码网络的运行过程包括以下步骤:S11、对仓库和各个节点的坐标数据分别进行初始化处理,得到仓库和各个节点的初始嵌入信息;S12、对初始嵌入信息进行卷积降维,获得各个节点的深层次特征;S13、根据深层次特征对仓库和各个节点的邻居节点进行采样,获得图上的结构化信息并进行传播;S14、对传播后的信息进行线性降维,得到仓库和各个节点的最终嵌入信息。5.根据权利要求4所述的一种基于强化学习的烟草物流调度方法,其特征在于,所述深度注意力卷积网络中聚合网络的运行过程为对仓库和各个节点的最终嵌入信息进行聚合,得到图嵌入信息。6.根据权利要求5所述的一种基于强化学习的烟草物流调度方法,其特征在于,所述深度注意力卷积网络中解码网络的运行过程包括以下步骤:S21、对特定节点的最终嵌入信息、车辆剩余容量和图嵌入信息进行拼接操作,得到上下文...

【专利技术属性】
技术研发人员:刘照毅段倩倩
申请(专利权)人:上海工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1