当前位置: 首页 > 专利查询>中山大学专利>正文

基于深度强化学习的车辆路径规划方法及装置制造方法及图纸

技术编号:33385260 阅读:16 留言:0更新日期:2022-05-11 22:59
本发明专利技术公开了基于深度强化学习的车辆路径规划方法及装置,方法包括:搭建车辆路径规划问题的求解框架,确定初始参数信息;搭建神经网络模型作为破坏策略;根据所述初始参数信息和所述破坏策略,将大邻域搜索过程拟合成马尔可夫决策过程;根据所述马尔可夫决策过程,通过强化学习方法训练神经网络模型;通过训练得到的神经网络模型对所述车辆路径规划问题进行求解,得到车辆路径规划结果。本发明专利技术能够缩短求解时间,且保证求解质量,可广泛应用于人工智能技术领域。人工智能技术领域。人工智能技术领域。

【技术实现步骤摘要】
基于深度强化学习的车辆路径规划方法及装置


[0001]本专利技术涉及人工智能
,尤其是基于深度强化学习的车辆路径规划方法及装置。

技术介绍

[0002]在组合优化问题中,车辆路径问题(Vehicle Routing Problem,VRP)是一类经典并被广泛研究的问题:给定一组车队和一定数量的客户,在满足约束的条件下,如何安排组织车队车辆的行驶路线(即客户先后服务顺序)使得设定目标(例如车辆总路程、车辆总耗时等)最优。在现实环境中,快递投递问题、外卖配送问题等都可以抽象为VRP问题,但往往存在客户数量较多和约束条件复杂(时间窗约束,配送顺序约束,货物容量约束等)等问题。
[0003]在VRPSDPTW问题上,迭代式搜索是求解此类问题的经典方法,目前较为优秀的是Liu等人基于模因搜索的求解框架,而大邻域搜索(Large Neighborhood Search,LNS)是其中的关键组件之一。大邻域搜索具有领域范围大,探索能力强等特点,是避免迭代搜索陷入局部最优的关键组件,在其他问题或其他求解框架中也有广泛应用。但大邻域搜索仍存在两大问本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的车辆路径规划方法,其特征在于,包括:搭建车辆路径规划问题的求解框架,确定初始参数信息;搭建神经网络模型作为破坏策略;根据所述初始参数信息和所述破坏策略,将大邻域搜索过程拟合成马尔可夫决策过程;根据所述马尔可夫决策过程,通过强化学习方法训练神经网络模型;通过训练得到的神经网络模型对所述车辆路径规划问题进行求解,得到车辆路径规划结果。2.根据权利要求1所述的基于深度强化学习的车辆路径规划方法,其特征在于,所述搭建车辆路径规划问题的求解框架,确定初始参数信息,包括:配置问题求解框架中目标解的位置特征和结点特征;配置所述目标解的质量的计算函数。3.根据权利要求2所述的基于深度强化学习的车辆路径规划方法,其特征在于,所述搭建车辆路径规划问题的求解框架,确定初始参数信息,还包括:将结点序列进行位置编码得到各结点位置特征;将结点的个体特征划分为静态特征和动态特征;其中,所述静态特征包括二维坐标、货物接收量、货物投放量和服务时间窗;所述动态特征包括等待时间、所在路径的最大货物容量、当前货物容量、与所在路径的前后结点的之间距离及前后结点之间距离。4.根据权利要求1所述的基于深度强化学习的车辆路径规划方法,其特征在于,所述搭建神经网络模型作为破坏策略,包括:将结点序列和结点个体特征输入到编码器中,所述编码器将结点位置特征和结点个体特征进行交互,得到结点个体特征向量的序列和结点位置特征向量的序列;将编码器得到的结点个体特征向量和结点位置特征向量输入到解码器,通过所述解码器计算结点间的概率矩阵;所述解码器根据概率矩阵选择若干个结点作为破坏的结点集,得到关于当前解的大邻域破坏策略;输出所选结点集合和动作概率。5.根据权利要求4所述的基于深度强化学习的车辆路径规划方法,其特征在于,所述将结点位置特征和结点个体特征进行交互,得到结点个体特征向量的序列和结点位置特征向量的序列,包括:将结点个体特征进行线性映射,得到高维的结点个体特征向量;将结点序列信息通过位置编码,得到高维的结点位置特征向量;通过三个双向协同注意力层对所述结点个体特征向量和所述结点位置特征...

【专利技术属性】
技术研发人员:王甲海廖易天
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1