【技术实现步骤摘要】
一种基于策略重用和强化学习的导航路径规划方法
本专利技术属于导航路径规划
,具体涉及一种导航路径规划方法。
技术介绍
导航路径规划是导航系统的重要组成部分,其应用体现在自动驾驶以及物流运输等领域。导航路径规划的目的是在给定的路网地图下,计算出起始位置以及目标位置之间连通的一条最短路径。在实际应用中,导航路径规划算法对于给定的路网以及目标位置可以生成一个对应的导航策略,导航策略能够通过已有的知识给出在实时位置的行进方向。现有的导航系统一般通过确定的动态规划方法来实现路径规划,常见的方法包括Dijkstra算法,Floyd算法以及A*算法等。然而。这些确定性的算法在针对规模较大的问题时复杂度较高,且不能针对动态路网计算生成实时的行走路径。因此,导航路径规划算法需要提高其自学习能力和自适应性以面对不确定的路网环境。在人工智能领域中,强化学习(ReinforcementLearning,RL)是解决序贯决策问题的一个重要框架。其优点体现在对环境的自适应性以及很少依赖人类经验的自学习能力,适合作为解决导航路径规划问题的新的算法框架。然而,强化学习中智能体(Agent)若不借助人类或历史的经验,从零开始学习(learningfromtabularasa)到完成困难的目标任务(例如前往未到过目标位置)通常很缓慢。一般的思路是通过迁移学习(TransferLearning)来借助历史经验来帮助强化学习提升学习效率,可以使强化学习智能体能够对环境有更广泛地认识和更有效地探索。在导航领域中,对于固定或有细微变化的路网地图内容,利用迁移学习可以免去对不同目标位置的路径规划 ...
【技术保护点】
1.一种基于策略重用和强化学习的导航路径规划方法,其特征在于,该方法包括以下步骤:步骤一、选取当前路网地图对应的策略库,计算策略库中未包含关键地图位置的源策略的重要状态;步骤二、设置最大训练周期的个数为K,利用置信度从策略库的源策略中选取出重用策略,并对自身策略或选取出的重用策略进行重用;步骤三、策略重用获得的新策略通过强化学习进行更新,获得更新后的新策略;步骤四、判断是否将更新后的新策略加入策略库中,若加入,则获得新的策略库继续用于导航路径规划;若不加入,则将原策略库继续用于导航路径规划。
【技术特征摘要】
1.一种基于策略重用和强化学习的导航路径规划方法,其特征在于,该方法包括以下步骤:步骤一、选取当前路网地图对应的策略库,计算策略库中未包含关键地图位置的源策略的重要状态;步骤二、设置最大训练周期的个数为K,利用置信度从策略库的源策略中选取出重用策略,并对自身策略或选取出的重用策略进行重用;步骤三、策略重用获得的新策略通过强化学习进行更新,获得更新后的新策略;步骤四、判断是否将更新后的新策略加入策略库中,若加入,则获得新的策略库继续用于导航路径规划;若不加入,则将原策略库继续用于导航路径规划。2.根据权利要求1所述的一种基于策略重用和强化学习的导航路径规划方法,其特征在于,所述步骤一的具体过程为:选取当前路网地图对应的策略库,对于策略库中未包含关键地图位置的源策略,则需要计算未包含关键地图位置的源策略的重要状态;对于需要计算重要状态的任一源策略,初始化浮动阈值θ=0,再进入M’个策略执行周期,每个策略执行周期的第一步均选取路网地图的一个边缘位置作为初始状态s0,对于每个策略执行周期的第t步,车辆导航系统的当前状态为st-1,选取使得数值函数Q(st-1,a)值最大的动作at来行动到达st,并在第t+1步判断st是否为更新重要状态,若其中:st为第t+1步车辆导航系统的当前状态;C(st)为状态st上的数值函数,C(st+1)为状态st+1上的数值函数,C(st-1)为状态st-1上的数值函数;则将源策略的临时的重要状态更新为st,并更新θ:M’个策略执行周期结束后,将最终保留下来的临时的重要状态作为该源策略的重要状态同理,计算出全部的需要计算重要状态的源策略的重要状态。3.根据权利要求2所述的一种基于策略重用和强化学习的导航路径规划方法,其特征在于,所述步骤二的具体过程为:步骤二一、在第一个训练周期将各个源策略πk的初始置信度pk均设置为0.5;对于之后的每一个训练周期,各个源策略πk的置信度将通过在前一个训练周期车辆导航系统是否达到目标位置sG且通过源策略πk的重要状态来确定,如式(3)所示:其中:Ik代表判决条件;设τ′为上一训练周期包含所有经过的状态的一条轨迹,则有:sG∈τ′且代表上一训练周期达到目标位置sG且通过源策略πk的重要状态每一个训练周期开始,若某源策略的置信度低于最高置信度的源策略的置信度maxk(pk)的一半时,则置信度低于maxk(pk)的一半的源策略将不再作为备选源策略重用于当前任务;步骤二二、继续在剩余的备选源策略中选取,若第n-1个训练周期的轨迹τn-1达到任务终止状态sG且经过至少一个备选源策略的重要状态,则取τn-1中从sG开始到最后一个重要状态期间所经过的所有状态组成的集合Sn-1,且集合Sn-1中包含sG和分别计算出每个源策略πk在集合Sn-1中所有状态上的C值的均值若中最大的值超过阈值则取使最大的k对应的源策略πk作为重用策略π′;若第n-1个训练周期的轨迹τn-1未达到任务终止状态sG和任何备选源策略的重要状态,或求得的中最大的值未超过阈值则依次取各源策略以及自身策略作为重用策略π′;步骤二三、每个训练周期均对当前训练周期内选定的重用策略π′进行重用,设置最大限定步数为H,第一步迭代开始时随机选取路网地图的一个位置作为初始状态s0′,每一步迭代车辆导航系统均将执行一个动作;迭代过程中车辆导航系统的探索行为分为以下两种情况:若以源策略作为重用策略且还未到达该源策略的重要状态,则选取...
【专利技术属性】
技术研发人员:郝建业,王汉超,侯韩旭,
申请(专利权)人:东莞理工学院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。