用于路由优化的系统和方法技术方案

技术编号：27820283 阅读：30 留言：0更新日期：2021-03-30 10:35

提供了用于使用强化学习(RL)确定路由的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。所述方法之一包括：基于路由方案初始化RL模型的状态，其中，RL模型包括应用于所述状态的多个改进动作；将所述多个改进动作中的一个或多个应用于所述状态以获得更新的路由方案，直到满足预定条件；应用扰动动作以获得扰动的路由方案，并将该扰动的路由方案反馈给RL模型，以使RL模型根据策略应用多个改进动作中的一个或多个；以及从更新的路由方案中确定具有最低成本的路由方案。案中确定具有最低成本的路由方案。案中确定具有最低成本的路由方案。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于路由优化的系统和方法

[0001]本申请总体上涉及用于确定路由的系统和方法，尤其涉及使用强化学习(RL)确定路由的系统和方法。

技术介绍

[0002]路由优化可以旨在从候选的有限集中识别具有最佳成本的路由方案。经典的旅行商问题(TSP)和车辆路线问题(VRP)是路由优化问题的变体的一些示例。路由优化的实际应用可以在诸如电信网络设计、任务调度、运输系统规划、能源、财务和供应链等领域中找到。涉及寻找车辆的有效路线的路由优化问题通常称为车辆路线问题(VRP)。VRP有多种变体，例如装卸VRP(VRPPD)、后进先出VRP、带时间窗的VRP(VRPTW)和带能力约束的VRP。
[0003]在典型的路由优化情况下，需要识别通过N个给定位置中的每个的一条或多条最佳路线(例如，最短距离的路线)。识别最佳路线一直具有挑战性，因为即使N的值很小，候选路线的总数也是非常大的。众所周知，确定VRP的最佳方案是NP困难的。实际上，由于资源、时间等方面的限制，通常不可能通过反复试验来测试每个可能的候选路线。因此，期望提供一种用于以更短的时间和更高的准确性确定路由的方法。

技术实现思路

[0004]本说明书的各种实施例包括但不限于用于确定路由的系统、方法和非暂时性计算机可读介质。
[0005]根据一些实施例，一种计算机实现的用于使用强化学习(RL)确定路由的方法包括：基于包括用于路由一个或多个车辆通过多个位置的一条或多条路线的路由方案初始化RL模型的状态，其中RL模型包括用于根据策略应用于所述状态以降低路由方...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的用于使用强化学习RL确定路由的方法，包括：基于包括一条或多条路线的路由方案初始化强化学习模型的状态，其中，所述一条或多条路线用于路由一个或多个车辆通过多个位置，所述强化学习模型包括用于根据策略应用于所述状态以降低所述路由方案的成本的多个改进动作；根据所述策略将所述多个改进动作中的一个或多个应用于所述状态，以降低所述路由方案的成本并获得更新的路由方案，直到满足预定条件；响应于满足所述预定条件，应用扰动动作以获得扰动的路由方案，并将所述扰动的路由方案反馈给所述强化学习模型，以使所述强化学习模型根据所述策略应用所述多个改进动作中的一个或多个；以及从所述更新的路由方案中确定具有最低成本的路由方案。2.根据权利要求1所述的方法，其中，根据所述策略应用于所述状态以降低所述路由方案的成本的所述多个改进动作包括以下中的一项或多项：改变所述多个位置中的至少两个位置在所述一条或多条路线中的一条路线内的顺序；以及将位置从所述一条或多条路线中的一条路线移动至所述一条或多条路线中的另一条路线。3.根据权利要求1至2中的任一项所述的方法，其中，应用所述扰动动作包括以下中的一项或多项：在至少两条所述路线中重排所述多个位置中的至少两个位置；连接至少两条所述路线；以及将至少一条所述路线分成多条路线。4.根据权利要求1至3中的任一项所述的方法，其中，所述更新的路由方案中的每个都受到一个或多个约束，所述约束包括以下中的一项或多项：时间约束；行驶距离约束；车辆容量约束；以及动力费用约束。5.根据权利要求1至4中的任一项所述的方法，其中，所述多个位置中的每个位置与一个或多个特征相关联，所述特征包括以下中的一项或多项：位置信息；需求信息；沿着所述一条或多条路线中的相应路线的一个或多个相邻位置的位置信息；以及离开所述多个位置中的每个位置的车辆的剩余容量。6.根据权利要求5所述的方法，其中，所述状态包括与所述多个位置相关联的一个或多个特征。7.根据权利要求1至6中的任一项所述的方法，其中，所述状态包括先前应用于所述状态的一个或多个改进动作的信息。8.根据权利要求1至7中的任一项所述的方法，还包括：基于通过应用所述多个改进动作中的一个或多个而接收到的奖励，调整所述策略，其
中，所述奖励是基于在应用所述一个或多个改进动作之后的成本变化而计算的。9.根据权利要求8所述的方法，其中，如果所述一个或多个改进动作降低了所述路由方案的成本，则应用所述一个或多个改进动作的奖励是预定正数；或者如果所述一个或多个改进动作没有降低所述路由方案的成本，则应用所述一个或多个改进动作的奖励是预定负数。10.根据权利要求8至9中的任一项所述的方法，其中：在应用所述扰动动作之前将所述多个改进动作中的一个或多个改进动作应用于所述状态对应于第一次迭代；以及在第i次迭代中应用所述一个或多个改进动作的奖励包括先前迭代的先前总成本降低...

【专利技术属性】
技术研发人员：张兴文，陆昊，华致刚，杨双红，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人