【技术实现步骤摘要】
一种基于进化的多目标强化学习的车辆路线规划方法
[0001]本专利技术涉及路径规划
,尤其涉及一种基于进化的多目标强化学习的车辆路线规划方法。
技术介绍
[0002]在电子商务的发展下,配送成本已成为最大的负担,几乎占总物流成本的一半。这就需要设计出更高效车辆路线规划方法,以降低总的物流成本。车辆路线规划问题是一个著名的NP
‑
hard组合优化问题,其目的是优化具有容量约束的车队的路线,以满足客户需求。目前,开发最佳车辆路线规划方案已在工业中和学术界引起了极大的兴趣。
[0003]越来越多的研究关注于车辆路线规划中的各种问题。根据需要优化的目标数量,现存的车辆路线规划方案两类,即单目标和多目标优化。在车辆路线规划方案中,大量研究研究单目标优化问题。这些方案仅考虑一个目标进行优化,例如,车辆行驶路线长度或所有车辆的行驶时间。除此之外,车辆路线规划方案中主要采样两种优化技术,即传统优化算法和深度强化学习算法。例如,Zhao J和Mao M等人提出了基于联合强化学习和局部搜索的车辆路线规划方案并最小 ...
【技术保护点】
【技术特征摘要】
1.一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:步骤1、对多目标车辆路线规划问题进行描述;步骤2、对车辆路线规划问题进行数学建模;步骤3、将多目标车辆路线规划问题建模为马尔科夫决策过程;步骤4、求解建模为马尔科夫决策过程的多目标车辆路线规划问题,得到车辆路线规划问题的最优策略。2.根据权利要求1所述的一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:所述步骤1将多目标车辆路线规划问题描述为;车辆路线规划系统环境由n个客户和一个仓库组成,即n+1个节点;d
i,j
表示每两节点之间的距离并且是已知的;车辆路线规划的总体目标是确定由同质车队m执行的路线集,以服务具有不确定需求q的给定客户集n;每个客户i都与一个时间窗口TW[α
i
,β
i
]相关联和一个不确定的服务时间s
i
;α
i
是客户能够接受服务的最早时间,而β
i
是客户能够由车辆k提供服务的最晚时间;车辆路线规划的优化目标是最小化预期的总旅行成本,最小化预期的燃料消耗率,以及最大化预期的客户满意度;除此之外,每条路线的起点和终点都是一个库房以及每个客户必须只被分配给一辆车,而且分配给一辆车的所有客户的总需求不超过其容量Q。3.根据权利要求2所述的一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:所述步骤2对车辆路线规划问题进行数学建模的具体方法为:设定起始客户为第一个节点,即仓库;给定车辆k,X
i
,i∈(1,n)代表当前车辆访问的节点,Y
i
代表当前车辆下一个要访问的节点;当前车辆从当前节点到终点要经过m条路线,节点X
i
与节点Y
i
的距离与每个边相关联,代表在路线k上从节点到节点的距离;表示决策变量并且决定了路线k上要访问的下一个客户i的值;变量代表路线k上的弧的起始节点的值;二元变量代表路线k上所有可能相连接的弧;如果属于路线k,则的值为1,否则为0;通过以下公式(1)
‑
(3)来定义车辆路线规划问题:(3)来定义车辆路线规划问题:(3)来定义车辆路线规划问题:并满足以下约束:
其中,f1、f2和f3均表示目标函数,第一个目标函数的第一项均表示目标函数,第一个目标函数的第一项是计算从所有k条路线的预期旅行时间计算出的预期总旅行成本,其中m表示路线的条数;表示从到的预期行驶时间;C
t
表示单位时间的成本;第二项代表每辆车的固定运营成本,其中F是车辆运营成本;第三项代表每辆车的固定运营成本,其中F是车辆运营成本;第三项为反映车辆提前到达的情况,引起客户的工作等待成本,第四项为反映车辆提前到达的情况,引起客户的工作等待成本,第四项为反映车辆延迟到达仓库的情况的仓库等待成本;C
e
是提前到达客户处的成本,而C
d
是延迟到达仓库的成本;第二个目标函数(2)用于最小化燃料消耗的预期成本;C
fuel
表示单位燃料成本,是两个节点之间的距离,p0是车辆空载的燃料消耗率,α是燃料消耗率和车辆负荷之间的线性回归系数;γ=(p
*
‑
p0)/Q,其中p
*
是车辆满负荷的燃料消耗率;表示一个路线上的车辆总重;第三个目标函数(3)用于使预期的客户满意度最大化;E(SV
i
)为预期顾客满意值,是衡量在所有顾客需求得到满足的情况下,每个顾客对时间窗口TW的偏差,SV
i
表示车辆到达的时间与时间窗口上限β
i
之间的时间差;约束条件(4)和(5)确保每条路线的起点和终点都是仓库;约束条件(6)确保k条路线中的每条路线不
被分割;约束(7)和(8)确定了节点的取值范围,而约束(9)和(10)确保每个客户正好被访问一次;E(qY
j
)为预期的客户需求Q
k
为车辆的容量,q表示客户的需求;约束(11)确保分配给某条路线k的所有客户的预期总需求不超过车辆的能力;不等式约束(12)和(13),代表了时间窗口约束,每个客户i有一个时间窗口TW[α
i
,β
i
];到下一个客户的预期行程时间是约束(14)是非负性约束,保证节点和两个变量只能是整数值。4.根据权利要求3所述的一种基于进化的多目标强化学习的车辆路线规划方法,其特征在于:所述步骤3将多目标车辆路线规划问题建模为马尔科夫决策过程时,使用三个元组U={S,A,r}来定义这个过程,其中,S为状态空间、A为行动空间和r为奖励函数,具体定义如下:(1)状态空间S:在马尔科夫决策过程中,每个状态s
t
=(K
t
,M
t
,Q
t
,q
t
,O
t
)∈S;其中,K
t
是车辆状态,M
t
表示车辆的线路集合,Q
t
表示车辆的容量状态,q
t
表示客户的需求状态,O
t
表示车辆和客户的位置集...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。