【技术实现步骤摘要】
车辆路径规划方法及装置
[0001]本专利技术涉及车辆路径问题(Vehicle Routing Problem,VRP)
,具体而言,本专利技术涉及一种车辆路径规划方法及装置。
技术介绍
[0002]带时间窗的车辆路径规划问题(VRP)在现实中有广泛的应用,比如公交车规划、货物运输等。对于该问题,现有技术的解决方案主要包括传统方法和基于强化学习的方法两种。
[0003]其中,传统方法又具体包括精确算法和启发式方法,精确算法效率低、不具备实用价值;启发式方法的性能依赖精细的人工设计,效率也不够高。
[0004]基于强化学习的方法难以在同时考虑多种限制条件下,在目标优化上保持原有的高性能搜索。在本项目中,多限制条件具体包括时间窗限制、车辆载量限制与车辆数目限制。
[0005]例如,一篇中国专利申请(CN110147901A)中使用指针网络(Pointer Network)来直接生成VRP问题的解,当同时考虑多种限制条件时,由于状态数目、动作空间数目以及模型规模的大幅增大,该模型会出现难以训练、性能大 ...
【技术保护点】
【技术特征摘要】
1.一种车辆路径规划方法,其特征在于,包括:数据获取步骤,获取待进行路径规划的始发站点、模拟车辆的最大装载量、多个客户站点的地理位置、每个客户站点的配送需求和服务时间窗,作为输入数据;模型加载步骤,加载预先训练好的路径策略搜索模型,并初始化全局时间和所述模拟车辆的剩余容量和地理位置;路径生成步骤,利用所述路径策略搜索模型,生成并输出路径策略,其中,所述路径策略搜索模型采用单一的模拟车辆在所有客户站点中进行搜索,并将所述模拟车辆从始发站点出发经过一个或多个客户站点后并返回所述始发站点的一段站点序列,作为一辆配送车辆的配送路径,得到多辆配送车辆的路径策略。2.如权利要求1所述的方法,其特征在于,所述利用所述路径策略搜索模型,生成并输出路径策略,包括:第一判断步骤,判断所述输入数据中是否存在未访问的客户站点,若是则进入站点筛选步骤,否则进入策略输出步骤;所述站点筛选步骤,根据所述模拟车辆的地理位置和未访问的客户站点的地理位置,计算所述模拟车辆到达各个未访问的客户站点的抵达时间,筛选抵达时间不晚于该客户站点的服务时间窗的截止时间的客户站点,作为备选站点;第二判断步骤,判断是否存在所述备选站点,若是,则进入概率计算步骤,否则进入重置步骤;所述概率计算步骤,计算所述模拟车辆去往各个备选站点的选取概率值,选择出选取概率值最大的备选站点作为当前目标站点,并判断模拟车辆的剩余容量是否满足当前目标站点的配送需求,若是,则进入状态更新步骤,否则,进入重置步骤;所述重置步骤,重置全局时间,将模拟车辆返回始发站点后进入所述站点筛选步骤;所述状态更新步骤,将模拟车辆的地理位置更新为当前目标站点的地理位置,并更新全局时间、模拟车辆的剩余容量和客户站点的访问状态,然后返回所述第一判断步骤;所述策略输出步骤,获得包含各个站点的访问顺序的站点总序列,并将从始发站点出发经过一个或多个客户站点后并返回所述始发站点的站点序列作为一段站点序列,将所述站点总序列划分为至少一段站点序列后输出,其中,每段站点序列对应于一辆配送车辆的配送路径。3.如权利要求2所述的方法,其特征在于,所述计算模拟车辆去往各个备选站点的选取概率值,包括:根据每个备选站点的地理位置和配送需求,生成每个备选站点的第一特征表达;计算所述模拟车辆抵达每个备选站点后的预期等待时间,根据所述预期等待时间,生成每个备选站点的第二特征表达;根据所述第一特征表达和第二特征表达,生成每个备选站点的站点特征表达;根据所有备选站点的站点特征表达,生成全局特征;以所述全局特征为索引,采用注意力机制生成每个备选站点的选取概率值。4.如权利要求2所述的方法,其特征在于,在所述数据输入步骤之前,还包括:训练步骤,训练得到所述路径策略搜索模型。5.如权利要求4所述的方法,其特征在于,所述训练步骤具体包括:第一步骤,获取训练集,所述训练集包括多组训练数据,每组训练数据包括始发站点、
模拟车辆的最大装载量、多个客户站点的地理位置、每个客户站点的配送需求和服务时间窗;第二步骤,初始化一个路径策略搜索模型的参照模型;第三步骤,选择一组尚未使用的训练数据,利用所选择的训练数据进行一轮训练,训练所述路径策略搜索模型,其中,在每轮训练开始时,所述路径策略搜索模型采用当前的参照模型;在每轮训练的过程中,利用所述训练数据对所述路径策略搜索模型的模型参数进行更新,并在更新后的所述路径策略搜索模型相对于当前的参照模型性能提升程度满足预设条件时,根据更新后的所述路径策略搜索模型更新所述参照模型;第四步骤,在每轮训练结束时,判断是否满足预设的网络训练结束条件,若是,则结束所述路径策略搜索模型的训练,并输出当前的参照模型,作为最终训练得到的所述路径策略搜索模型;否则,返回所述第三步骤。6.如权利要求5所述的方法,其特征在于,利用所选择的训练数据进行一轮训练,训练所述路径策略搜索模型,包括:第一子步骤,根据当前的参照模型,初始化所述路径策略搜索模型;第二子步骤,将所选择的训练数据作为输入数据,执行所述路径生成步骤,获得所述训练数据对应的路径策略;第三子步骤,根据所述训练数据对应的路径策略,计算奖励函数值;第四子步骤,根据所述奖励函数值,更新所述路径策略搜索模型的模型参数;第五子步骤,判断更新后的所述路径策略搜索模型相对于当前的参照模型性能提升程度是否满足预设条件,若是,则根据更新后的所述路径策略搜索模型更新所述参照模型,并返回第二子步骤,否则,结束当前轮的训练。7.如权利要求6所述的方法,其特征在于,所述根据所述训练数据对应的路径策略,计算奖励函数值,包括:根据所述训练数据对应的路径策略的总路程,生成主要项;根据所述训练数据对应的路径策略中每段站点序列的最后两个站点之间的路程,生成车辆数量对应的惩罚项;根据所述主要项和惩罚项,计算得到奖励函数值。8.如权利要求6所述的方法,其特征在于,所述判断更新后的所述路径策略搜索模型相对于当前的参照模型性能提升程度是否满足预设条件,包括:将一组验证数据作为输入数据,输...
【专利技术属性】
技术研发人员:李勇,宗泽方,夏彤,罗蜀钰,郑萌,耿璐,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。