一种基于分布强化学习的通用可靠最短路算法制造技术

技术编号：30443949 阅读：15 留言：0更新日期：2021-10-24 18:34

本发明专利技术公开了一种基于分布强化学习的通用可靠最短路算法，所述基于分布强化学习的通用可靠最短路算法包括：S1：根据所有路径的概率分布表，利用训练方法，得到最优路径的概率分布表；S2：根据所述最优路径的概率分布表，利用决策方法，得到最优路径的起点、最优路径和最优路径的终点。本发明专利技术所提供的基于分布强化学习的通用可靠最短路算法，能够解决现有的基于分布强化学习的通用可靠最短路算法耗时且效率低下的问题。效率低下的问题。效率低下的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布强化学习的通用可靠最短路算法

[0001]本专利技术涉及路径规划
，具体涉及一种基于分布强化学习的通用可靠最短路算法。

技术介绍

[0002]路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成，连接起点位置和终点位置的序列点或曲线称之为路径，构成路径的策略称之为路径规划。
[0003]路径规划在很多领域都具有广泛的应用。在高新科技领域的应用有：机器人的自主无碰行动；无人机的避障突防飞行；巡航导弹躲避雷达搜索、防反弹袭击、完成突防爆破任务等。在日常生活领域的应用有：GPS导航；基于GIS系统的道路规划；城市道路网规划导航等。在决策管理领域的应用有：物流管理中的车辆问题(VRP)及类似的资源管理资源配置问题。通信
的路由问题等。凡是可拓扑为点线网络的规划问题基本上都可以采用路径规划的方法解决。
[0004]不确定性下的路径规划是智能交通系统最基本的组成部分之一。虽然最小预期时间被视为是随机交通网络中最受欢迎和最简单的路径规划目标。但在现实中，有很大一部分路径规划问题不仅仅是考虑预期到达时间，可能考虑到道路的可靠性和风险规避，这类问题被称作可靠最短路径问题。根据不同的需求，会有不同的可靠最短路径问题定义，并有不同的算法加以解决。
[0005]目前常用的可靠最短路算法，几乎所有算法都只能解决一种可靠最短路问题，不能同时解决多种问题需求。并且大部分算法在实现过程中需要假设路径行驶时间的基于某种特殊分布。在路径规划问题中，算法的实时性也是一个重要衡量标准，大部分...

【技术保护点】

【技术特征摘要】
1.一种基于分布强化学习的通用可靠最短路算法，其特征在于，所述基于分布强化学习的通用可靠最短路算法包括：S1：根据所有路径的概率分布表，利用训练方法，得到最优路径的概率分布表；S2：根据所述最优路径的概率分布表，利用决策方法，得到最优路径的起点、最优路径和最优路径的终点。2.根据权利要求1所述的基于分布强化学习的通用可靠最短路算法，其特征在于，所述训练方法包括：S11：初始化所有路径的概率分布表；S12：随机选择所述所有路径的概率分布表中的任意一个起点；S13：随机选择所述起点上的任意一条路径，并根据所述路径，得到所述路径的预设消耗时间；S14：在所述路径上标记多个标记点；S15：向下一个标记点移动，得到移动消耗时间；S16：根据所述移动消耗时间更新所述所有路径的概率分布表，得到更新后的概率分布表；S17：判断当前标记点是否为最后一个标记点，若是，进入步骤S18；否则返回步骤S13；S18：判断是否结束训练，若是，将所述更新后的概率分布表作为最优路径的概率分布表输出；否则返回步骤S12。3.根据权利要求2所述的基于分布强化学习的通用可靠最短路算法，其特征在于，所述步骤S18中，通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。4.根据权利要求2所述的基于分布强化学习的通用可靠最短路算法，其特征在于，所述步骤S19中，通过对比所述消耗时间是否达到预设训练时间判断是否结束训练。5.根据权利要求1所述的基于分布强化学习的通用可靠最短路算法，其特征在于，所述决策方法包括：S21：在所述最优路径的概率分布表中选择目标起点和目标终点；S22：根据所述目标起点，利用...

【专利技术属性】
技术研发人员：郭宏亮，盛文达，
申请(专利权)人：郭宏亮，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人