一种基于策略重用和强化学习的导航路径规划方法技术

技术编号:21768563 阅读:83 留言:0更新日期:2019-08-03 20:45
一种基于策略重用和强化学习的导航路径规划方法,它属于导航路径规划技术领域。本发明专利技术解决了现有方法对源策略的重用不充分的问题。本发明专利技术引入表示状态重要性的函数来辅助策略选择、策略重用以及策略库重构,实现了在路网地图中快速规划导航路径的目的。相比较于现有传统路径规划方法,本发明专利技术的算法ARES‑TL采用了基于策略重用的强化学习算法,并实时更新完整的策略库,通过占用一些空间存储策略库来节约算法时间,且强化学习算法能应对在线微量更新的地图,同时相对于同类型的策略重用方法,本发明专利技术的算法ARES‑TL相对于PRQL以及OPS‑TL规避了对不相干的源策略的重用导致的负迁移,提高了探索效率且能准确地完成导航任务。本发明专利技术可以应用于导航路径规划技术领域。

A Navigation Path Planning Method Based on Strategy Reuse and Intensive Learning

【技术实现步骤摘要】
一种基于策略重用和强化学习的导航路径规划方法
本专利技术属于导航路径规划
,具体涉及一种导航路径规划方法。
技术介绍
导航路径规划是导航系统的重要组成部分,其应用体现在自动驾驶以及物流运输等领域。导航路径规划的目的是在给定的路网地图下,计算出起始位置以及目标位置之间连通的一条最短路径。在实际应用中,导航路径规划算法对于给定的路网以及目标位置可以生成一个对应的导航策略,导航策略能够通过已有的知识给出在实时位置的行进方向。现有的导航系统一般通过确定的动态规划方法来实现路径规划,常见的方法包括Dijkstra算法,Floyd算法以及A*算法等。然而。这些确定性的算法在针对规模较大的问题时复杂度较高,且不能针对动态路网计算生成实时的行走路径。因此,导航路径规划算法需要提高其自学习能力和自适应性以面对不确定的路网环境。在人工智能领域中,强化学习(ReinforcementLearning,RL)是解决序贯决策问题的一个重要框架。其优点体现在对环境的自适应性以及很少依赖人类经验的自学习能力,适合作为解决导航路径规划问题的新的算法框架。然而,强化学习中智能体(Agent)若不借助人类或历史的经验,从零开始学习(learningfromtabularasa)到完成困难的目标任务(例如前往未到过目标位置)通常很缓慢。一般的思路是通过迁移学习(TransferLearning)来借助历史经验来帮助强化学习提升学习效率,可以使强化学习智能体能够对环境有更广泛地认识和更有效地探索。在导航领域中,对于固定或有细微变化的路网地图内容,利用迁移学习可以免去对不同目标位置的路径规划中对于基本路网信息相关知识的重复训练,能够节约训练时间从而更快地提供所需路径的导航策略。策略重用作为一种迁移学习方法,通过重用过去的类似学习策略来加速新任务的强化学习过程。关于策略重用的现有研究包括再利用专家的建议,以奖励形成方式定义政策模拟集,将策略选择模型化为贝叶斯最优化问题,以及通过重用实例来估计奖励函数从而将源任务的经验实例迁移到目标任务等。然而这些方法还需要更多的额外知识来迁移源策略。Fernandez和Veloso提出了策略重用(PolicyReuseQ-Learning,PRQL)方法和策略库重构(PolicyLibrarythroughPolicyReuse,PLPR)方法。其中:PRQL引入了用于促进探索的先前策略的库,使得包含车辆导航系统在内的智能体(Agent)能够快速收集相关信息而加速学习。然而负迁移的存在使得PRQL可能收敛到次优策略。而PLPR构建一个没有明确理论保证的政策库。之后出现了对PRQL的策略选择进行优化的方法(OPS-TL),该方法借鉴了解决多臂赌博机(Multi-ArmedBandits,MAB)问题的UCB1方法在线学习。然而OPS-TL需要更多的性能反馈来评估选择源,这需要一段时间来锁定早已了解的合适的策略,并且还需要人工设置学习率以达到一定时间后的独立学习。由于现有方法在重用策略时采取了步步趋离的方式,且其后期的学习率很低,导致现有方法对源策略的重用很不充分。
技术实现思路
本专利技术的目的是为了解决现有方法对源策略的重用不充分的问题。本专利技术为解决上述技术问题采取的技术方案是:一种基于策略重用和强化学习的导航路径规划方法,该方法包括以下步骤:步骤一、选取当前路网地图对应的策略库,计算策略库中未包含关键地图位置的源策略的重要状态;步骤二、设置最大训练周期的个数为K,利用置信度从策略库的源策略中选取出重用策略,并对自身策略或选取出的重用策略进行重用;步骤三、策略重用获得的新策略通过强化学习进行更新,获得更新后的新策略;步骤四、判断是否将更新后的新策略加入策略库中,若加入,则获得新的策略库继续用于导航路径规划;若不加入,则将原策略库继续用于导航路径规划。本专利技术的有益效果是:本专利技术的一种基于策略库的策略重用和强化学习的导航路径规划方法,本专利技术引入表示状态重要性的函数来辅助策略选择、策略重用以及策略库重构,实现了在路网地图中快速规划导航路径的目的。相比较于现有传统路径规划方法,本专利技术的算法ARES-TL采用了基于策略重用的强化学习算法,并实时更新完整的策略库,通过占用一些空间存储策略库来节约算法时间,且强化学习算法能应对在线微量更新的地图,同时相对于同类型的策略重用方法,本专利技术的算法ARES-TL相对于PRQL以及OPS-TL规避了对不相干的源策略的重用导致的负迁移,提高了探索效率且能准确地完成导航任务。附图说明图1是各任务在环境Gridworld2006的分布图;图2是任务1的C函数归一化后分布的可视化图;图3是任务2的C函数归一化后分布的可视化图;图4是任务3的C函数归一化后分布的可视化图;图5是任务4的C函数归一化后分布的可视化图;图6是任务46的C函数归一化后分布的可视化图;图7是任务29的C函数归一化后分布的可视化图;图8是策略库包含相似源任务的情况下,ε-greedy,PRQL,OPS-TL,ARQL和ARES-TL五种方法的累积折合收益对比图;图9是策略库不包含相似源任务的情况下,ε-greedy,PRQL,OPS-TL,ARQL和ARES-TL五种方法的累积折合收益对比图;图10是策略库包含相似源任务的情况下,任务1、2、3、4在PRQL方法下对源任务的重用频率对比图;图11是策略库包含相似源任务的情况下,任务1、2、3、4在OPS-TL方法下对源任务的重用频率对比图;图12是策略库包含相似源任务的情况下,任务1、2、3、4在ARQL方法下对源任务的重用频率对比图;图13是策略库包含相似源任务的情况下,任务1、2、3、4在ARES-TL方法下对源任务的重用频率对比图;图14是策略库不包含相似源任务的情况下,任务1、2、3、4在PRQL方法下对源任务的重用频率对比图;图15是策略库不包含相似源任务的情况下,任务1、2、3、4在OPS-TL方法下对源任务的重用频率对比图;图16是策略库不包含相似源任务的情况下,任务1、2、3、4在ARQL方法下对源任务的重用频率对比图;图17是策略库不包含相似源任务的情况下,任务1、2、3、4在ARES-TL方法下对源任务的重用频率对比图。具体实施方式具体实施方式一:本实施方式所述的一种基于策略重用和强化学习的导航路径规划方法,该方法包括以下步骤:步骤一、选取当前路网地图对应的策略库,计算策略库中未包含关键地图位置的源策略的重要状态;步骤二、设置最大训练周期的个数为K(K可以设置大一些,实际达到自学习条件则自动跳出不再进行策略重用),利用置信度从策略库的源策略中选取出重用策略,并对自身策略或选取出的重用策略进行重用;步骤三、策略重用获得的新策略通过强化学习进行更新,获得更新后的新策略;步骤四、判断是否将更新后的新策略加入策略库中,若加入,则获得新的策略库继续用于导航路径规划;若不加入,则将原策略库继续用于导航路径规划。具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一的具体过程为:选取当前路网地图对应的策略库,对于策略库中未包含关键地图位置(重要状态)的源策略,则需要计算未包含关键地图位置的源策略的重要状态;对于需要计算重要状态的任一源策略,初始化浮动阈本文档来自技高网
...

【技术保护点】
1.一种基于策略重用和强化学习的导航路径规划方法,其特征在于,该方法包括以下步骤:步骤一、选取当前路网地图对应的策略库,计算策略库中未包含关键地图位置的源策略的重要状态;步骤二、设置最大训练周期的个数为K,利用置信度从策略库的源策略中选取出重用策略,并对自身策略或选取出的重用策略进行重用;步骤三、策略重用获得的新策略通过强化学习进行更新,获得更新后的新策略;步骤四、判断是否将更新后的新策略加入策略库中,若加入,则获得新的策略库继续用于导航路径规划;若不加入,则将原策略库继续用于导航路径规划。

【技术特征摘要】
1.一种基于策略重用和强化学习的导航路径规划方法,其特征在于,该方法包括以下步骤:步骤一、选取当前路网地图对应的策略库,计算策略库中未包含关键地图位置的源策略的重要状态;步骤二、设置最大训练周期的个数为K,利用置信度从策略库的源策略中选取出重用策略,并对自身策略或选取出的重用策略进行重用;步骤三、策略重用获得的新策略通过强化学习进行更新,获得更新后的新策略;步骤四、判断是否将更新后的新策略加入策略库中,若加入,则获得新的策略库继续用于导航路径规划;若不加入,则将原策略库继续用于导航路径规划。2.根据权利要求1所述的一种基于策略重用和强化学习的导航路径规划方法,其特征在于,所述步骤一的具体过程为:选取当前路网地图对应的策略库,对于策略库中未包含关键地图位置的源策略,则需要计算未包含关键地图位置的源策略的重要状态;对于需要计算重要状态的任一源策略,初始化浮动阈值θ=0,再进入M’个策略执行周期,每个策略执行周期的第一步均选取路网地图的一个边缘位置作为初始状态s0,对于每个策略执行周期的第t步,车辆导航系统的当前状态为st-1,选取使得数值函数Q(st-1,a)值最大的动作at来行动到达st,并在第t+1步判断st是否为更新重要状态,若其中:st为第t+1步车辆导航系统的当前状态;C(st)为状态st上的数值函数,C(st+1)为状态st+1上的数值函数,C(st-1)为状态st-1上的数值函数;则将源策略的临时的重要状态更新为st,并更新θ:M’个策略执行周期结束后,将最终保留下来的临时的重要状态作为该源策略的重要状态同理,计算出全部的需要计算重要状态的源策略的重要状态。3.根据权利要求2所述的一种基于策略重用和强化学习的导航路径规划方法,其特征在于,所述步骤二的具体过程为:步骤二一、在第一个训练周期将各个源策略πk的初始置信度pk均设置为0.5;对于之后的每一个训练周期,各个源策略πk的置信度将通过在前一个训练周期车辆导航系统是否达到目标位置sG且通过源策略πk的重要状态来确定,如式(3)所示:其中:Ik代表判决条件;设τ′为上一训练周期包含所有经过的状态的一条轨迹,则有:sG∈τ′且代表上一训练周期达到目标位置sG且通过源策略πk的重要状态每一个训练周期开始,若某源策略的置信度低于最高置信度的源策略的置信度maxk(pk)的一半时,则置信度低于maxk(pk)的一半的源策略将不再作为备选源策略重用于当前任务;步骤二二、继续在剩余的备选源策略中选取,若第n-1个训练周期的轨迹τn-1达到任务终止状态sG且经过至少一个备选源策略的重要状态,则取τn-1中从sG开始到最后一个重要状态期间所经过的所有状态组成的集合Sn-1,且集合Sn-1中包含sG和分别计算出每个源策略πk在集合Sn-1中所有状态上的C值的均值若中最大的值超过阈值则取使最大的k对应的源策略πk作为重用策略π′;若第n-1个训练周期的轨迹τn-1未达到任务终止状态sG和任何备选源策略的重要状态,或求得的中最大的值未超过阈值则依次取各源策略以及自身策略作为重用策略π′;步骤二三、每个训练周期均对当前训练周期内选定的重用策略π′进行重用,设置最大限定步数为H,第一步迭代开始时随机选取路网地图的一个位置作为初始状态s0′,每一步迭代车辆导航系统均将执行一个动作;迭代过程中车辆导航系统的探索行为分为以下两种情况:若以源策略作为重用策略且还未到达该源策略的重要状态,则选取...

【专利技术属性】
技术研发人员:郝建业王汉超侯韩旭
申请(专利权)人:东莞理工学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1