综合深度神经网络与强化学习的车辆路径问题求解方法技术

技术编号:36166265 阅读:5 留言:0更新日期:2022-12-31 20:15
本发明专利技术公开了综合深度神经网络与强化学习的车辆路径问题求解方法,涉及强化学习技术领域,利用Strutc2Vec图结构对实际路网进行特征提取,并更新不同状态下路径图的特征信息;构建Actor

【技术实现步骤摘要】
综合深度神经网络与强化学习的车辆路径问题求解方法


[0001]本专利技术属于强化学习以及车辆路径领域,涉及强化学习技术,具体是综合深度神经网络与强化学习的车辆路径问题求解方法。

技术介绍

[0002]由于近十年电子商务行业的快速发展,物流运输业作为货物运输的渠道越来越受到重视庞大的物流行业对应着巨大的物流需求,随之而来的是我国的年度物流总成本一年比一年高;如何优化物流配送,减少物流总成本非常重要;车辆路径问题通常可以描述为:给定一组需求点,一队同类型运输车辆从物流中心出发,为所有需求点提供送货服务;需求点的订单需求和服务时间窗口已知;问题以优化车辆行驶距离、车辆使用数或运输总费用为目标;车辆路径问题已经被证明是一个NP

hard问题,即无法找到可在多项式时间复杂度内求解的方法;因此传统方案只能获得近似最优解或启发式算法;但是传统的启发式算法对于求解大规模需求点来说无法应对,过长的求解时长不能让物流企业实时制定合理的车辆配送方案;随着深度学习与强化学习的发展,基于分布式神经网络的强化学习算法能够更好的解决这些难题,在车辆路径领域已经有多种强化学习方法被广泛使用,从而进一步减少对大规模车辆路径算例的求解时长;为此,提出综合深度神经网络与强化学习的车辆路径问题求解方法。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一;为此,本专利技术提出综合深度神经网络与强化学习的车辆路径问题求解方法,该综合深度神经网络与强化学习的车辆路径问题求解方法将实际货物运输路线抽象成无向图的形式;并利用Strutc2Vec的图结构对实际路网进行特征提取,通过Strutc2Vec根据对应的图结构递归提取物流配送中心与客户点的特征信息,并对不同状态下路径图中的特征信息进行更新;然后构建Actor

Critic网络与Critic网络,由长短期记忆网络(LSTM)组成其编码器与解码器的神经元,随后将特征信息导入Actor

Critic网络进行编码与解码;接着利用随机策略梯度下降算法对Actor

Critic网络进行参数训练,将ActorNet产生的实际奖励值与CriticNet产生的预估奖励值进行均方误差计算,同时对Actor指针网络进行修正计算损失函数以此生成车辆下一个将要访问的客户点;大幅度降低了求解时间,并能获得更优质的车辆配送路径方案。
[0004]为实现上述目的,根据本专利技术的第一方面的实施例提出综合深度神经网络与强化学习的车辆路径问题求解方法,包括以下步骤:步骤一:将车辆路径抽象为一个无向图的形式;将无向图标记为G;其中,无向图中的每个节点分别代表具有货物需求的收货点;每个节点均具有需求数量属性;无向图的每条边代表每个收货点之间的路径;
步骤二:利用Strutc2Vec根据对应的无向图G的结构递归提取节点的特征;步骤三:构建Actor

Critic网络;包括使用编码器将图信息、节点状态以及包括起始点的初始无向图作为输入,生成图形结构和节点特征的编码;以及使用解码器整合编码器的上下文信息、自身当前的上下文信息以及遍历过的部分旅行节点利用注意力机制产生权重最大的元素作为下一个旅行的节点;步骤四:训练Actor

Critic网络;包括定义奖励函数,并使用随机策略梯度下降方法训练指针网络ActorNet;以及根据指针网络ActorNet输出的策略,使用随机梯度下降对每个策略产生的价值进行预测的方式训练价值网络CriticNet;再将指针网络ActorNet产生的实际奖励值与价值网络CriticNet产生的预估奖励值求得均方误差作为优化目标,采用随机梯度下降的方式进行训练Actor

Critic网络;步骤五:使用训练好的Actor

Critic网络求解车辆路径问题;Strutc2Vec提取节点特征的方式为对节点的属性和边的属性用不同的参数Θ进行非线性映射到神经网络中,经过r次迭代后得到每个节点点及其与邻点边的特征信息;r为预先设置的迭代次数参数;参数Θ根据每条边的距离以及来往时间按照一定比例通过指针网络训练而得;Strutc2Vec将算例中的每一个点嵌入一个初始化为0的P维特征;其中,P代表每个节点的属性的数量;然后对所有的嵌入特征进行同步更新;更新函数如下:其中,i、j分别代表不同的节点;表示节点的多维节点特征,为节点i的所有相邻节点,是特征矩阵一个非线性参数映射,和是节点i、j的路线迭代参数,是车辆k从节点i行驶到节点j的距离参数,是车辆k从节点i行驶到节点j的燃料参数,是车辆从节点k行驶到节点i的时间参数;所述编码器与解码器均属于循环神经网络,内部神经元由若干个LSTM网络组成;所述编码器将图信息、节点状态以及包括起始点的初始无向图经过LSTM网络转换为P维的特征信息,并经过LSTM处理后的原始数据作为解码器的初始输入;LSTM将节点信息转化为P维特征信息步骤如下:转化为P维特征信息步骤如下:转化为P维特征信息步骤如下:转化为P维特征信息步骤如下:
其中是sigmoid函数,,,,是模型待训练的参数,对应的b是模型的偏置参数,,,,是模型偏差参数;表示的是节点阶段的隐藏层信息,表示的是节点迭代R次后的路线信息;表示的是LSTM网络中的遗忘门,对上一节点传进来的信息有选择的进行忘记;为输入门,对上一节点的信息有选择的输入,为输出门,决定是否使用隐藏层状态;表示候选记忆单元,和表示的是节点 i、的记忆单元;先将起始节点的信息输入指针网络,然后将其他节点的信息随机进行输入,最后,根据所有节点生成的P维的特征信息,编码器生成图形结构和节点特征的编码,并将其作为初始单元内存状态输入编码器;采用LSTMs单元构建了PTRNET解码器的递归神经网络模型,解码器整合编码器的上下文信息、自身当前的上下文信息以及遍历过的部分旅行节点利用注意力机制产生权重最大的元素作为下一个旅行的节点;在每一步中根据注意力机制,把这个权重最大的元素就相当于指针网络的指针,作为最终的输出;注意力机制的定义如下公式表示:其中,k代表来往各个节点之间的运输车;是概率策略,即每要访问下一个节点,都会产生一个概率,即是指产生的概率的个数要小于节点个数i;是注意力向量,,是注意力矩阵,A是注意力函数,是在给定所有节点都嵌入的情况下,编码器产生图结构和节点特征的编码,同时也是节点的记忆单元;均是注意力矩阵;其中代表编码器中的节点的注意力矩阵,代表解码器中的注意力矩阵;注意力矩阵的目的在于以矩阵形式获得节点的全部信息,因此注意力矩阵的计算究其根本还是X与在做向量点积,其中X为节点的输入序
列,为X的转置;是S动态状态下k车经历过的点的集合;softmax是归一函数;分别为节点i 、j的记忆单元;指针网络输出的选择下个客户点的概率定义为:其中,表示的S状态选择下一个访问节点的概率函数;指针网络ActorNet通过将节点信息输入编码器与解码器生成下一个将要访问节点的概率,并且计算初步的奖励;计算奖励的方式为:在给定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.综合深度神经网络与强化学习的车辆路径问题求解方法,其特征在于,包括以下步骤:步骤一:将车辆路径抽象为一个无向图的形式;将无向图标记为G;其中,无向图中的每个节点分别代表具有货物需求的收货点;无向图的每条边代表每个收货点之间的路径;步骤二:利用Strutc2Vec根据对应的无向图G的结构递归提取节点的特征;步骤三:构建Actor

Critic网络;包括使用编码器将图信息、节点状态以及包括起始点的初始无向图作为输入,生成图形结构和节点特征的编码;以及使用解码器整合编码器的上下文信息、自身当前的上下文信息以及遍历过的部分旅行节点利用注意力机制产生权重最大的元素作为下一个旅行的节点;步骤四:训练Actor

Critic网络;包括定义奖励函数,并使用随机策略梯度下降方法训练指针网络ActorNet;以及根据指针网络ActorNet输出的策略,使用随机梯度下降对每个策略产生的价值进行预测的方式训练价值网络CriticNet;再将指针网络ActorNet产生的实际奖励值与价值网络CriticNet产生的预估奖励值求得均方误差作为优化目标,采用随机梯度下降的方式进行训练Actor

Critic网络;步骤五:使用训练好的Actor

Critic网络求解车辆路径问题。2.根据权利要求1所述的综合深度神经网络与强化学习的车辆路径问题求解方法,其特征在于,Strutc2Vec提取节点特征的方式为对节点的属性和边的属性用不同的参数Θ进行非线性映射到神经网络中,经过r次迭代后得到每个节点点及其与邻点边的特征信息;r为预先设置的迭代次数参数;参数Θ根据每条边的距离以及来往时间按照一定比例通过指针网络训练而得;Strutc2Vec将算例中的每一个点嵌入一个初始化为0的P维特征;其中,P代表每个节点的属性的数量;然后对所有的嵌入特征进行同步更新。3.根据权利要求1所述的综合深度神经网络与强化学习的车辆路径问题求解方法,其特征在于,所述编码器将图信息、节点状态以及包括起始点的初始无向图经过LSTM网络转换为P维的特征信息,并经过LSTM处理后的原始数据作为解码器的初始输入;先将起始节点的信息输入指针网络,然后将其他节点的信息随机进行输入,最后,根据所有节点生成的P维的特征信息,编码器生成图形结构和节点特征的编码,...

【专利技术属性】
技术研发人员:陈荣元邓乔木周鲜成申立智李甜霞何志雄陈浪
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1