用于路由优化的系统和方法技术方案

技术编号:27820283 阅读:30 留言:0更新日期:2021-03-30 10:35
提供了用于使用强化学习(RL)确定路由的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法之一包括:基于路由方案初始化RL模型的状态,其中,RL模型包括应用于所述状态的多个改进动作;将所述多个改进动作中的一个或多个应用于所述状态以获得更新的路由方案,直到满足预定条件;应用扰动动作以获得扰动的路由方案,并将该扰动的路由方案反馈给RL模型,以使RL模型根据策略应用多个改进动作中的一个或多个;以及从更新的路由方案中确定具有最低成本的路由方案。案中确定具有最低成本的路由方案。案中确定具有最低成本的路由方案。

【技术实现步骤摘要】
【国外来华专利技术】用于路由优化的系统和方法


[0001]本申请总体上涉及用于确定路由的系统和方法,尤其涉及使用强化学习(RL)确定路由的系统和方法。

技术介绍

[0002]路由优化可以旨在从候选的有限集中识别具有最佳成本的路由方案。经典的旅行商问题(TSP)和车辆路线问题(VRP)是路由优化问题的变体的一些示例。路由优化的实际应用可以在诸如电信网络设计、任务调度、运输系统规划、能源、财务和供应链等领域中找到。涉及寻找车辆的有效路线的路由优化问题通常称为车辆路线问题(VRP)。VRP有多种变体,例如装卸VRP(VRPPD)、后进先出VRP、带时间窗的VRP(VRPTW)和带能力约束的VRP。
[0003]在典型的路由优化情况下,需要识别通过N个给定位置中的每个的一条或多条最佳路线(例如,最短距离的路线)。识别最佳路线一直具有挑战性,因为即使N的值很小,候选路线的总数也是非常大的。众所周知,确定VRP的最佳方案是NP困难的。实际上,由于资源、时间等方面的限制,通常不可能通过反复试验来测试每个可能的候选路线。因此,期望提供一种用于以更短的时间和更高的准确性确定路由的方法。

技术实现思路

[0004]本说明书的各种实施例包括但不限于用于确定路由的系统、方法和非暂时性计算机可读介质。
[0005]根据一些实施例,一种计算机实现的用于使用强化学习(RL)确定路由的方法包括:基于包括用于路由一个或多个车辆通过多个位置的一条或多条路线的路由方案初始化RL模型的状态,其中RL模型包括用于根据策略应用于所述状态以降低路由方案的成本的多个改进动作;根据所述策略将多个改进动作中的一个或多个应用于所述状态,以降低路由方案的成本并获得更新的路由方案,直到满足预定条件;响应于满足预定条件,应用扰动动作以获得扰动的路由方案,并将该扰动的路由方案反馈给RL模型以使RL模型根据所述策略应用所述改进动作中的一个或多个;以及从更新的路由方案中确定具有最低成本的路由方案。
[0006]在一些实施例中,用于根据所述策略应用于所述状态以降低路由方案的成本的多个改进动作包括以下中的一项或多项:改变多个位置中的至少两个位置在所述一条或多条路线中的一条路线内的顺序;以及将位置从一条或多条路线中的一条移动到一条或多条路线中的另一条。
[0007]在一些实施例中,应用扰动动作包括以下中的一项或多项:在至少两条所述路线中重排所述多个位置中的至少两个位置;连接至少两条所述路线;以及将至少一条所述路线分成多条路线。
[0008]在一些实施例中,每个更新的路由方案受到一个或多个约束,所述约束包括以下中的一项或多项:时间约束;行驶距离约束;车辆容量约束;以及动力费用约束。
[0009]在一些实施例中,所述多个位置中的每个位置与一个或多个特征相关联,所述一个或多个特征包括以下中的一项或多项:位置信息;需求信息;沿着一条或多条路线中的相应路线的一个或多个相邻位置的位置信息;以及离开多个位置中的每个位置的车辆的剩余容量。
[0010]在一些实施例中,所述状态包括与所述多个位置相关联的一个或多个特征。
[0011]在一些实施例中,所述状态包括先前应用于所述状态的一个或多个改进动作的信息。
[0012]在一些实施例中,所述方法还包括基于通过应用多个改进动作中的一个或多个而接收的奖励调整所述策略,其中,基于在应用一个或多个改进动作之后的成本变化计算所述奖励。
[0013]在一些实施例中,如果所述一个或多个改进动作降低所述路由方案的成本,则应用所述一个或多个改进动作的奖励是预定正数;或者如果所述一个或多个改进动作没有降低所述路由方案的成本,则应用所述一个或多个改进动作的奖励是预定负数。
[0014]在一些实施例中,在应用扰动动作之前将多个改进动作中的一个或多个应用于所述状态对应于第一次迭代;在第i次迭代中应用一个或多个改进动作的奖励包括先前迭代的先前总成本降低与第i次迭代的总成本降低之间的差。
[0015]在一些实施例中,所述改进动作包括操作或不操作。
[0016]在一些实施例中,所述预定条件包括在将阈值数量的连续改进动作应用于所述状态之后,所述路由方案的成本没有降低。
[0017]在一些实施例中,初始化RL模型的状态包括:对于包括所述RL模型的多个RL模型中的每个模型,基于路由方案初始化每个RL模型的状态,其中,每个RL模型包括用于根据策略应用于状态以降低所述路由方案的成本的多个改进动作;将所述多个改进动作中的一个或多个应用于所述状态包括:对于多个RL模型中的每个模型,根据策略将多个改进动作中的一个或多个应用于状态以降低路由方案的成本,并获得更新的路由方案,直到满足预定条件,其中,所述状态包括先前应用于状态的多个改进动作的信息,并且对于多个RL模型中的每个模型,所述多个改进动作的数量是不同的;应用扰动动作以获得扰动的路由方案并将所述扰动的路由方案反馈给RL模型包括:对于多个RL模型中的每个模型,应用扰动动作以获得扰动的路由方案并将扰动的路由方案反馈给每个RL模型以使每个RL模型根据策略应用多个改进动作中的一个或多个;从更新后的路由方案中确定具有最低成本的路由方案包括:从为多个RL模型获得的更新的路由方案中确定具有最低成本的路由方案。
[0018]在一些实施例中,多个RL模型包括N个RL模型,每个模型被称为第j个模型,其中j为1、2、3、

、或N;第j个RL模型的状态包括先前应用于该状态的(j

1)个改进动作的信息。
[0019]在一些实施例中,所述方法包括:迭代地执行将所述多个改进动作中的一个或多个应用于所述状态,并且响应于满足所述预定条件,应用所述扰动动作以获得所述扰动的路由方案,并将所述扰动的路由方案反馈给所述RL模型,直到满足退出条件。
[0020]根据其他实施例,一种用于使用强化学习(RL)确定路由的系统包括:一个或多个处理器;以及耦接到所述一个或多个处理器并且具有存储在其上的指令的一个或多个计算机可读存储器,所述指令可由所述一个或多个处理器执行以执行任何前述实施例的方法。
[0021]根据其他实施例,一种非暂时性计算机可读存储介质配置有可由一个或多个处理
器执行的指令,以促使一个或多个处理器执行前述实施例中任一项的方法。
[0022]根据其他实施例,一种用于使用强化学习(RL)确定路由的装置包括用于执行前述实施例中任一项的方法的多个模块。
[0023]根据一些实施例,一种用于使用强化学习(RL)确定路由的系统包括一个或多个处理器和一个或多个非暂时性计算机可读存储介质,该介质存储可由一个或多个处理器执行以促使一个或多个处理器执行包括以下的操作的指令:基于包括用于路由一个或多个车辆通过多个位置的一条或多条路线的路由方案初始化RL模型的状态,其中RL模型包括根据策略应用于状态以降低路由方案的成本的多个改进动作;根据策略将多个改进动作中的一个或多个应用于状态以降低路由方案的成本并获得更新的路由方案,直到满足预定条件;响应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的用于使用强化学习RL确定路由的方法,包括:基于包括一条或多条路线的路由方案初始化强化学习模型的状态,其中,所述一条或多条路线用于路由一个或多个车辆通过多个位置,所述强化学习模型包括用于根据策略应用于所述状态以降低所述路由方案的成本的多个改进动作;根据所述策略将所述多个改进动作中的一个或多个应用于所述状态,以降低所述路由方案的成本并获得更新的路由方案,直到满足预定条件;响应于满足所述预定条件,应用扰动动作以获得扰动的路由方案,并将所述扰动的路由方案反馈给所述强化学习模型,以使所述强化学习模型根据所述策略应用所述多个改进动作中的一个或多个;以及从所述更新的路由方案中确定具有最低成本的路由方案。2.根据权利要求1所述的方法,其中,根据所述策略应用于所述状态以降低所述路由方案的成本的所述多个改进动作包括以下中的一项或多项:改变所述多个位置中的至少两个位置在所述一条或多条路线中的一条路线内的顺序;以及将位置从所述一条或多条路线中的一条路线移动至所述一条或多条路线中的另一条路线。3.根据权利要求1至2中的任一项所述的方法,其中,应用所述扰动动作包括以下中的一项或多项:在至少两条所述路线中重排所述多个位置中的至少两个位置;连接至少两条所述路线;以及将至少一条所述路线分成多条路线。4.根据权利要求1至3中的任一项所述的方法,其中,所述更新的路由方案中的每个都受到一个或多个约束,所述约束包括以下中的一项或多项:时间约束;行驶距离约束;车辆容量约束;以及动力费用约束。5.根据权利要求1至4中的任一项所述的方法,其中,所述多个位置中的每个位置与一个或多个特征相关联,所述特征包括以下中的一项或多项:位置信息;需求信息;沿着所述一条或多条路线中的相应路线的一个或多个相邻位置的位置信息;以及离开所述多个位置中的每个位置的车辆的剩余容量。6.根据权利要求5所述的方法,其中,所述状态包括与所述多个位置相关联的一个或多个特征。7.根据权利要求1至6中的任一项所述的方法,其中,所述状态包括先前应用于所述状态的一个或多个改进动作的信息。8.根据权利要求1至7中的任一项所述的方法,还包括:基于通过应用所述多个改进动作中的一个或多个而接收到的奖励,调整所述策略,其
中,所述奖励是基于在应用所述一个或多个改进动作之后的成本变化而计算的。9.根据权利要求8所述的方法,其中,如果所述一个或多个改进动作降低了所述路由方案的成本,则应用所述一个或多个改进动作的奖励是预定正数;或者如果所述一个或多个改进动作没有降低所述路由方案的成本,则应用所述一个或多个改进动作的奖励是预定负数。10.根据权利要求8至9中的任一项所述的方法,其中:在应用所述扰动动作之前将所述多个改进动作中的一个或多个改进动作应用于所述状态对应于第一次迭代;以及在第i次迭代中应用所述一个或多个改进动作的奖励包括先前迭代的先前总成本降低...

【专利技术属性】
技术研发人员:张兴文陆昊华致刚杨双红
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1