当前位置: 首页 > 专利查询>郭宏亮专利>正文

一种基于分布强化学习的通用可靠最短路算法制造技术

技术编号:30443949 阅读:15 留言:0更新日期:2021-10-24 18:34
本发明专利技术公开了一种基于分布强化学习的通用可靠最短路算法,所述基于分布强化学习的通用可靠最短路算法包括:S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。本发明专利技术所提供的基于分布强化学习的通用可靠最短路算法,能够解决现有的基于分布强化学习的通用可靠最短路算法耗时且效率低下的问题。效率低下的问题。效率低下的问题。

【技术实现步骤摘要】
一种基于分布强化学习的通用可靠最短路算法


[0001]本专利技术涉及路径规划
,具体涉及一种基于分布强化学习的通用可靠最短路算法。

技术介绍

[0002]路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线称之为路径,构成路径的策略称之为路径规划。
[0003]路径规划在很多领域都具有广泛的应用。在高新科技领域的应用有:机器人的自主无碰行动;无人机的避障突防飞行;巡航导弹躲避雷达搜索、防反弹袭击、完成突防爆破任务等。在日常生活领域的应用有:GPS导航;基于GIS系统的道路规划;城市道路网规划导航等。在决策管理领域的应用有:物流管理中的车辆问题(VRP)及类似的资源管理资源配置问题。通信
的路由问题等。凡是可拓扑为点线网络的规划问题基本上都可以采用路径规划的方法解决。
[0004]不确定性下的路径规划是智能交通系统最基本的组成部分之一。虽然最小预期时间被视为是随机交通网络中最受欢迎和最简单的路径规划目标。但在现实中,有很大一部分路径规划问题不仅仅是考虑预期到达时间,可能考虑到道路的可靠性和风险规避,这类问题被称作可靠最短路径问题。根据不同的需求,会有不同的可靠最短路径问题定义,并有不同的算法加以解决。
[0005]目前常用的可靠最短路算法,几乎所有算法都只能解决一种可靠最短路问题,不能同时解决多种问题需求。并且大部分算法在实现过程中需要假设路径行驶时间的基于某种特殊分布。在路径规划问题中,算法的实时性也是一个重要衡量标准,大部分可靠最短路径算法往往十分耗时,并不能满足实时的需求。

技术实现思路

[0006]本专利技术的目的在于提供一种基于分布强化学习的通用可靠最短路算法,以解决现有的基于分布强化学习的通用可靠最短路算法耗时且效率低下的问题。
[0007]本专利技术解决上述技术问题的技术方案如下:
[0008]本专利技术提供一种基于分布强化学习的通用可靠最短路算法,所述基于分布强化学习的通用可靠最短路算法包括:
[0009]S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;
[0010]S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。
[0011]可选择地,所述训练方法包括:
[0012]S11:初始化所有路径的概率分布表;
[0013]S12:随机选择所述所有路径的概率分布表中的任意一个起点;
[0014]S13:随机选择所述起点上的任意一条路径,并根据所述路径,得到所述路径的预设消耗时间;
[0015]S14:在所述路径上标记多个标记点;
[0016]S15:向下一个标记点移动,得到移动消耗时间;
[0017]S16:根据所述移动消耗时间更新所述所有路径的概率分布表,得到更新后的概率分布表;
[0018]S17:判断当前标记点是否为最后一个标记点,若是,进入步骤S18;否则返回步骤S13;
[0019]S18:判断是否结束训练,若是,将所述更新后的概率分布表作为最优路径的概率分布表输出;否则返回步骤S12。
[0020]可选择地,所述步骤S18中,通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。
[0021]可选择地,所述步骤S19中,通过对比所述消耗时间是否达到预设训练时间判断是否结束训练。
[0022]可选择地,所述决策方法包括:
[0023]S21:在所述最优路径的概率分布表中选择目标起点和目标终点;
[0024]S22:根据所述目标起点,利用所述最优路径的概率分布表计算得到目标路径;
[0025]S23:在所述目标路径上标记多个目标标记点;
[0026]S24:向下一个目标标记点移动,得到目标移动消耗时间;
[0027]S25:根据所述目标移动消耗时间判断所述下一个目标标记点是否为目标终点,若是,输出所述目标起点、所述目标路径和所述目标终点;否则返回步骤S22。
[0028]可选择地,所述步骤S22中,所述利用所述最优路径的概率分布表计算得到目标路径包括:
[0029]将路径规划问题转化为马尔科夫过程框架内的顺序决策问题。
[0030]可选择地,在将路径规划问题转化为马尔科夫过程框架内的顺序决策问题之后,所述基于分布强化学习的通用可靠最短路算法还包括:
[0031]根据分布式强化学习的贝尔曼方程进行学习,得到所述目标路径。
[0032]可选择地,所述贝尔曼方程为:
[0033][0034]其中,π为路径策略;s,a为状态;Z
π
(s,a)为从(s,a)开始的路径策略π的回报,r为消耗时间,k为采样次数,r
k
表示第k次消耗时间,α
t
为t时刻下的学习率,为t+1时刻,在路径策略π下,于s

做出动作a所得到的Z。
[0035]可选择地,所述步骤S25中,通过对比所述目标移动消耗时间和预设目标移动消耗时间判断所述下一个目标标记点是否为目标终点。
[0036]本专利技术具有以下有益效果:
[0037]通过上述技术方案,即通过本专利技术所提供的基于分布强化学习的通用可靠最短路算法,利用训练方法和决策方法,能够根据实际运行过程中的不同情况即使调整规划方式,
并能够在运行过程中随时更改需求目标,从而得到可靠最短路,从而进一步提高工作效率。
附图说明
[0038]图1为本专利技术所提供的基于分布强化学习的通用可靠最短路算法的流程图;
[0039]图2为图1中步骤S1的分步骤流程图;
[0040]图3为图1中步骤S2的分步骤流程图。
具体实施方式
[0041]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0042]实施例
[0043]本专利技术解决上述技术问题的技术方案如下:
[0044]本专利技术提供一种基于分布强化学习的通用可靠最短路算法,所述基于分布强化学习的通用可靠最短路算法包括:
[0045]S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;
[0046]S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。
[0047]本专利技术具有以下有益效果:
[0048]通过上述技术方案,即通过本专利技术所提供的基于分布强化学习的通用可靠最短路算法,利用训练方法和决策方法,能够根据实际运行过程中的不同情况即使调整规划方式,并能够在运行过程中随时更改需求目标,从而得到可靠最短路,从而进一步提高工作效率。
[0049]可选择地,参考图2所示,所述训练方法包括:
[0050]S11:初始化所有路径的概率分布表;
[0051]S12:随机选择所述所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布强化学习的通用可靠最短路算法,其特征在于,所述基于分布强化学习的通用可靠最短路算法包括:S1:根据所有路径的概率分布表,利用训练方法,得到最优路径的概率分布表;S2:根据所述最优路径的概率分布表,利用决策方法,得到最优路径的起点、最优路径和最优路径的终点。2.根据权利要求1所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述训练方法包括:S11:初始化所有路径的概率分布表;S12:随机选择所述所有路径的概率分布表中的任意一个起点;S13:随机选择所述起点上的任意一条路径,并根据所述路径,得到所述路径的预设消耗时间;S14:在所述路径上标记多个标记点;S15:向下一个标记点移动,得到移动消耗时间;S16:根据所述移动消耗时间更新所述所有路径的概率分布表,得到更新后的概率分布表;S17:判断当前标记点是否为最后一个标记点,若是,进入步骤S18;否则返回步骤S13;S18:判断是否结束训练,若是,将所述更新后的概率分布表作为最优路径的概率分布表输出;否则返回步骤S12。3.根据权利要求2所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述步骤S18中,通过对比所述消耗时间是否达到预设消耗时间判断当前标记点是否为最后一个标记点。4.根据权利要求2所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述步骤S19中,通过对比所述消耗时间是否达到预设训练时间判断是否结束训练。5.根据权利要求1所述的基于分布强化学习的通用可靠最短路算法,其特征在于,所述决策方法包括:S21:在所述最优路径的概率分布表中选择目标起点和目标终点;S22:根据所述目标起点,利用...

【专利技术属性】
技术研发人员:郭宏亮盛文达
申请(专利权)人:郭宏亮
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1