一种基于深度强化学习的外卖配送路径规划方法技术

技术编号:36976664 阅读:86 留言:0更新日期:2023-03-25 17:56
本发明专利技术公开了路径规划技术领域的一种基于深度强化学习的外卖配送路径规划方法,所述规划方法包括以下步骤:步骤一:读取问题输入的信息,定义优化目标,设定约束条件;步骤二:搭建编码器

【技术实现步骤摘要】
一种基于深度强化学习的外卖配送路径规划方法


[0001]本专利技术属于路径规划
,具体涉及一种基于深度强化学习的外卖配送路径规划方法。

技术介绍

[0002]据最新调查数据显示,2020年国内外卖市场总体规模高达8352亿元,外卖用户规模多达5亿人。外卖配送作为外卖行业中不可或缺的重要部分,对其进行路径规划,从而提高配送效率和质量,降低配送成本,具有一定的研究价值和应用前景。外卖配送路径规划问题属于带时间窗的取送货问题(PDPTW),近年来,学者们对PDPTW问题做了大量研究。Li和Lim于2003年提出禁忌嵌入模拟退火的启发式算法,该算法结合了禁忌表和模拟退火跳出局部循环的特点,高效地求解PDPTW问题;Bent于2006年提出了第一个两阶段混合算法用于解决PDPTW问题,在第一阶段使用简单的模拟退火算法来减少路线数量和优化解质量,而第二阶段使用大邻域搜索(LNS)来减少总旅行成本;潘立军和符卓于2012年提出时差的插入策略,设计了快速时差插入和最优时差插入方法,并结合遗传算法求解带时间窗的取送货问题。常规的启发式算法适应能力较差,不能本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的外卖配送路径规划方法,其特征在于,所述规划方法包括以下步骤:步骤一:读取问题输入的信息,定义优化目标,设定约束条件;步骤二:搭建以注意力

指针网络机制为基础的编码器

解码器架构中的基础神经网络,并初始化它们的权值和偏置等参数;步骤三:在步骤二搭建的基础神经网络基础上,结合演员

评论家算法,构建演员网络和评论家网络;步骤四:设定网络训练过程参数;步骤五:收集取送货节点位置信息,并为数据添加先后次序约束,构建数据集,划分为训练样本集、验证样本集以及测试数据集;步骤六:输入训练样本集中的数据,使用演员网络给出骑手的预测行程序列,即骑手访问各个取送货节点的合法次序,并给出序列对应的行程距离,再利用评论家网络对演员网络的输出结果做出评价,即给出实际行程距离;步骤七:进行网络的训练与更新,计算演员网络给出结果与评论家网络给出结果的差值,进行平方处理后作为损失值,根据损失值进行反向传播,并使用Adam优化器对神经网络的参数进行更新;步骤八:终止判断,若已完成设定的训练轮数,或损失值满足终止条件,则终止迭代,保存最优网络参数,并在该参数下使用演员网络给出目标问题的规划结果,否则转至步骤六,重复训练过程,并通过观察损失的变化和当前网络在验证集上的表现评估网络训练情况。2.根据权利要求1所述的一种基于深度强化学习的外卖配送路径规划方法,其特征在于,所述步骤一中问题的输入信息包括骑手平均速度、骑手最远行驶距离、骑手最大携带量、订单时间窗、单个节点最大需求量、节点总数目以及各节点位置;所述优化目标为完成所有订单配送任务时的行程总距离最小;所述约束条件为每个订单必须在时间窗内被完成且仅被完成一次、骑手的行驶距离不能超过最大行驶距离及骑手必须先取后送。3.根据权利要求1所述的一种基于深度强化学习的外卖配送路径规划方法,其特征在于,所述步骤二中的基础神经网络包括卷积编码器网络、注意力机制网络、指针网络的其中一种或多种。4.根据权利要求1所述的一种基于深度强化学习的外卖配送路径规划方法,其特征在于,所述步骤三中演员

评论家算法是一种结合策略梯度和时序差分学习的强化学习方法,演员指策略函数,学习一个策略来得到尽量高的回报,评论员指值函数,对当前策略的值函数进行估计,评估演员的好坏。5.根据权利要求1所述的一种基于深度强化学习的外卖配送路径规划方法,其特征在于,所述步骤三中演员网络使用编码器

解码器架构,以卷积输入层作为编码器,注意力

指针网络作为解码器,编码器的输出经过隐藏层处理后输入到解码器中,解码器中的注意力

指针网络根据各节点当前注意力的情况,从上一个状态指向下一个状态。6.根据权利要求1所述的一种基于深度强化学习的外卖配送路径规划方法,其特征在于,所述步骤一中:读取问题输入的信息,定义优化目标,设定约束条件的步骤如下:首先设定模型参数:
其中,K={1,2,...,k}:骑手集合,共有k个骑手;N={...

【专利技术属性】
技术研发人员:张朔
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1