基于时序差分学习算法的最短路径规划方法和装置制造方法及图纸

技术编号：25523524 阅读：36 留言：0更新日期：2020-09-04 17:13

本申请涉及一种基于时序差分学习算法的最短路径规划方法、装置、计算机设备和计算机可读存储介质。其中，该基于时序差分学习算法的最短路径规划方法包括：获取待规划网络的拓扑结构数据；根据拓扑结构数据，建立待规划网络的网络模型；获取场景信息，并根据场景信息确定最短路径规划模型，其中，最短路径规划模型是基于时序差分学习算法训练的；根据最短路径规划模型，计算网络模型中起点到终点的最短路径。通过本申请，解决了相关技术中最短路径算法在不同的策略应用中存在局限性的问题，提高了时序差分学习算法的实用性。

全部详细技术资料下载

【技术实现步骤摘要】
基于时序差分学习算法的最短路径规划方法和装置
本申请涉及计算机领域，特别是涉及基于时序差分学习算法的最短路径规划方法、装置、计算机设备和计算机可读存储介质。
技术介绍
寻找最短路径是复杂网络理论里的基础算法，具有广泛的应用场景，同时也是其它更复杂模型的重要基础。目前相关技术中复杂网络理论里寻找最短路径算法主要有Dijkstra算法、Bellman-Ford算法、Johnson算法以及Q学习算法，其中，Q学习算法只能在离轨策略下进行学习，无法应用于同轨策略；而Dijkstra算法、Bellman-Ford算法、Johnson算法虽然能在同轨策略中应用，但是这些算法对于三维或更高维的网络计算时需要降解、分割等繁琐的过程，同时计算量较大，另外这些应用在动态网络中的扩展性不佳。针对相关技术中最短路径算法在不同的策略应用中存在局限性的问题，尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种基于时序差分学习算法的最短路径规划方法、装置、计算机设备和计算机可读存储介质，以至少解决相关技术中最...

【技术保护点】
1.一种基于时序差分学习算法的最短路径规划方法，其特征在于包括：/n获取待规划网络的拓扑结构数据；/n根据所述拓扑结构数据，建立所述待规划网络的网络模型；/n获取场景信息，并根据场景信息确定最短路径规划模型，其中，所述最短路径规划模型是基于时序差分学习算法训练的；/n根据所述最短路径规划模型，计算所述网络模型中起点到终点的最短路径。/n

【技术特征摘要】
1.一种基于时序差分学习算法的最短路径规划方法，其特征在于包括：
获取待规划网络的拓扑结构数据；
根据所述拓扑结构数据，建立所述待规划网络的网络模型；
获取场景信息，并根据场景信息确定最短路径规划模型，其中，所述最短路径规划模型是基于时序差分学习算法训练的；
根据所述最短路径规划模型，计算所述网络模型中起点到终点的最短路径。

2.根据权利要求1所述的基于时序差分学习算法的最短路径规划方法，其特征在于，根据场景信息确定最短路径规划模型包括：
在根据所述场景信息确定所述路径规划策略为同轨策略的情况下，根据基于Sarsa算法的最短路径规划模型计算所述网络模型中起点到终点的最短路径。

3.根据权利要求1所述的基于时序差分学习算法的最短路径规划方法，其特征在于，根据场景信息确定最短路径规划模型包括：
在根据所述场景信息确定所述路径规划策略为离轨策略的情况下，根据基于期望Sarsa算法的最短路径规划模型计算所述网络模型中起点到终点的最短路径。

4.根据权利要求2所述的基于时序差分学习算法的最短路径规划方法，其特征在于，所述基于Sarsa算法的最短路径规划模型的训练过程包括：
基于∈-贪婪法在所述网络模型中的当前节点S选择第一动作A，以使得规划的路径从当前节点S延伸到下一节点S′，并确定即时奖励R；
在所述下一节点S′，计算基于∈-贪婪法在所述下一节点S′选择第二动作A′的收获Gt，并根据所述收获Gt和所述即时奖励R，更新Sarsa算法的价值函数Q。

5.根据权利要求3所述的基于时序差分学习算法的最短路径规划方法，其特征在于，所述基于期望Sarsa算法的最短路径规划模型的训练过程包括：
基于∈-贪婪法在所述网络模型中的当前节点S选择第一动作A，以使得规划的路径从当前节点S延伸到下一节点S′，...

【专利技术属性】
技术研发人员：刘晶，范渊，
申请(专利权)人：杭州安恒信息技术股份有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人