基于深度强化学习的未知环境下无人机自主路径规划方法技术

技术编号:37776866 阅读:14 留言:0更新日期:2023-06-09 09:07
本发明专利技术为一种基于深度强化学习的未知环境下无人机自主路径规划方法,其克服了现有技术中存在的经验重放机制无法提取重要样本以及稀疏奖励的问题。本发明专利技术包括以下步骤:1)在二维空间内建立无人机自主运动飞行模型,随机生成障碍物数量及位置,以及无人机的起始点;2)基于马尔可夫决策过程框架建立环境模型并设计阶梯奖励机制;3)基于状态和策略选择动作,将与环境交互所得的信息组成五元组存入经验池并依据所设计的优先级经验重放机制进行采样;4)采用改进的DQN算法基于环境模型采样得到的样本进行网络更新,并对样本的状态

【技术实现步骤摘要】
基于深度强化学习的未知环境下无人机自主路径规划方法


[0001]本专利技术属于强化学习和无人机避障
,涉及一种基于深度强化学习的未知环境下无人机自主运动路径规划方法。

技术介绍

[0002]在过去的几年中,无人机在各种实际任务中的应用呈上升趋势,如情报、监视和侦察、压制敌方防空、搜索和救援以及货物运送。在这些应用中,一个关键的要求是如何为无人机建立一个智能系统,在没有任何人为干预的情况下自主执行任务。具体来说,需要开发先进的智能技术,在动态的未知环境中,自主地将无人机从任意的出发点导航到目的地,同时避免途中的障碍与威胁。为了实现这一的任务,需要克服两个挑战:
[0003]1)环境的部分可观察性。无人机在开始时对环境一无所知,在任务中只能感知到部分信息。这一特点使得一些基于规则的路径规划方法无法使用,因为面对不确定的环境,不可能为所有可能的情况设计完整的规则。
[0004]2)环境的不可预测性。分散物体的不规则移动给无人机带来了一个不稳定的环境,基于同时定位与地图构建(Simultaneous Localization And Mapping,SLAM)的导航方法将变得难以解决,因为移动物体需要连续的映射,这将导致难以承受的计算成本。此外,基于传感规划的方法的开环机制,在没有对未来进行任何预测和推理的情况下做出决定,阻碍了它们对动态环境的适应性。
[0005]为了应对这些挑战,研究人员求助于强化学习(Reinforcement Learning,RL)技术,并致力于为无人机设计基于学习的规划器。作为一种机器学习算法,RL经常被用来解决顺序决策问题,并与自适应动态编程(Approximate Dynamic Programming,ADP)有着深刻的联系。RL的特殊机制使其能够通过与环境的试错互动来学习一个智能规划器。基于RL的规划器使用马尔可夫决策过程(Markov Decision Process,MDP)来为问题建模,并根据预测的长期回报产生策略,这使得RL在不知道系统模型的情况下能够适应随机的动态环境。然而,维度灾难的问题阻碍了传统RL算法的进一步应用。为了解决"维度灾难"问题并保持对高维连续状态空间的更好表示,在传统的RL中引入了深度神经网络并产生了深度强化学习(Deep Reinforcement Learning,DRL)方法。通过利用深度学习(Deep Learning,DL)的感知能力和RL的决策能力,DRL在无人机运动规划领域取得了出色的表现。
[0006]然而,传统的深度强化学习方法在某些方面仍然存在缺陷,如在传统的经验重放机制中以相同概率提取样本使得大量的有效样本被覆盖而未被提取。此外,传统的奖励机制在较大的环境中往往面临稀疏奖励的问题,这在很大程度上影响了算法的学习效率。

技术实现思路

[0007]本专利技术的目的在于提供一种基于深度强化学习的未知环境下无人机自主路径规划方法,其克服了现有技术中存在的经验重放机制无法提取重要样本以及稀疏奖励的问题。
[0008]为实现上述目的,本专利技术采用的技术方案为:
[0009]一种基于深度强化学习的未知环境下无人机自主路径规划方法,其特征在于:包括以下步骤:
[0010]1)在二维空间内建立无人机自主运动飞行模型,随机生成障碍物数量及位置,以及无人机的起始点;
[0011]2)基于马尔可夫决策过程框架建立环境模型,设计阶梯奖励机制;
[0012]3)基于状态和策略选择动作,无人机采取动作后与环境交互产生新的状态并计算得到的奖励,将状态所对应的特征向量、动作、奖励、下一时刻状态所对应的特征向量和终止标志位组成五元组存储在经验池中,从所得经验池中依据优先级经验重放机制使用SumTree采样方法进行批次采样来训练网络模型;
[0013]4)采用改进的DQN算法基于环境模型采样得到的样本进行网络更新,并对样本的状态

动作对进行赋值;
[0014]5)根据样本中状态下各个动作的Q值选择最优动作,进而得到最优策略。
[0015]步骤1)中,为训练和测试建立一个二维世界,并在该二维世界中设置威胁。其中,无人机的起始位置是固定不变的,而威胁和目标的位置是随机变化的。
[0016]步骤2)包括以下步骤:
[0017]S2

1、状态空间S描述为向量空间,t时刻环境的状态S
t
是它的环境状态集中某一个状态;
[0018]S2

2、动作空间A描述为离散向量空间,t时刻个体采取的动作A
t
是它的动作集中某一个动作;
[0019]S2

3、奖励信号R描述为环境对Agent动作的判断,t时刻个体在状态S
t
采取的动作A
t
对应的奖励R
t+1
会在t+1时刻得到;设计一种阶梯奖励机制,即在充分考虑运动规划问题特点的前提下,根据无人机与指定目标的距离动态设置奖励,从而丰富无人机运动过程中的中间奖励信息;
[0020]S2

4、个体的策略π描述为个体采取动作的依据,即个体会依据策略π来选择动作;
[0021]S2

5、Agent行动后的价值v
π
(s)描述为个体在策略π和状态s时,采取行动后的价值,为一个期望函数;
[0022]S2

6、奖励衰减因子γ,在[0,1]之间;如果为0,则是贪婪法,即价值只由当前延时奖励决定,如果是1,则所有的后续状态奖励和当前奖励一视同仁。大多数时候,取一个0到1之间的数字,即当前延时奖励的权重比后续奖励的权重大;
[0023]S2

7、环境的状态转化模型,表示为一个概率模型,即在状态s下采取动作a,转到下一个状态s

的概率,表示为
[0024]S2

8、探索率ε描述为Agent对下一步动作选择的概率,这个比率用在强化学习训练迭代过程中。
[0025]步骤3)包括以下步骤:
[0026]S3

1、建立容量为MEMORY_SIZE的数据缓冲区用于保存历史经验,初始化为空;
[0027]S3

2、持续采集无人机与环境进行交互的历史经验,并存储到经验池中;
[0028]所述交互过程为:无人机获取环境状态信息,作为当前的状态信息S,同时得到其特征向量φ(S),根据所得的特征向量φ(S)作为输入,评估当前状态下各个动作的Q值,动
作选择策略根据结合启发式搜索规则的ε

greedy策略在当前Q值输出中选择最佳动作A;无人机执行该动作,得到下一时刻的环境状态,进而得出下一时刻的状态信息S


[0029]S3

3、将历史经验数据保存到经验池中。若经验池中数据的数量大于经验池的最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的未知环境下无人机自主路径规划方法,其特征在于:包括以下步骤:1)在二维空间内建立无人机自主运动飞行模型,随机生成障碍物数量及位置,以及无人机的起始点;2)基于马尔可夫决策过程框架建立环境模型,设计阶梯奖励机制;3)基于状态和策略选择动作,无人机采取动作后与环境交互产生新的状态并计算得到的奖励,将状态所对应的特征向量、动作、奖励、下一时刻状态所对应的特征向量和终止标志位组成五元组存储在经验池中,从所得经验池中依据优先级经验重放机制使用SumTree采样方法进行批次采样来训练网络模型;4)采用改进的DQN算法基于环境模型采样得到的样本进行网络更新,并对样本的状态

动作对进行赋值;5)根据样本中状态下各个动作的Q值选择最优动作,进而得到最优策略。2.根据权利要求1所述的基于深度强化学习的未知环境下无人机自主路径规划方法,其特征在于:步骤1)中,为训练和测试建立一个二维世界,并在该二维世界中设置威胁。其中,无人机的起始位置是固定不变的,而威胁和目标的位置是随机变化的。3.根据权利要求1所述的基于深度强化学习的未知环境下无人机自主路径规划方法,其特征在于:步骤2)包括以下步骤:S2

1、状态空间S描述为向量空间,t时刻环境的状态S
t
是它的环境状态集中某一个状态;S2

2、动作空间A描述为离散向量空间,t时刻个体采取的动作A
t
是它的动作集中某一个动作;S2

3、奖励信号R描述为环境对Agent动作的判断,t时刻个体在状态S
t
采取的动作A
t
对应的奖励R
t+1
会在t+1时刻得到;设计一种阶梯奖励机制,即在充分考虑运动规划问题特点的前提下,根据无人机与指定目标的距离动态设置奖励,从而丰富无人机运动过程中的中间奖励信息;S2

4、个体的策略π描述为个体采取动作的依据,即个体会依据策略π来选择动作;S2

5、Agent行动后的价值v
π
(s)描述为个体在策略π和状态s时,采取行动后的价值,为一个期望函数;S2

6、奖励衰减因子γ,在[0,1]之间;如果为0,则是贪婪法,即价值只由当前延时奖励决定,如果是1,则所有的后续状态奖励和当前奖励一视同仁。大多数时候,取一个0到1之间的数字,即当前延时奖励的权重比后续奖励的权重大;S2

7、环境的状态转化模型,表示为一个概率模型,即在状态s下采取动作a,转到下一个状态s

的概率,表示为S2

8、探索率ε描述为Agent对下一步动作选择的概率,这个比率用在强化学习训练迭代过程中。4.根据权利要求1所述的基于深度强化学习的未知环境下无人机自主路径规划方法,...

【专利技术属性】
技术研发人员:贺楚超田琳宇辛泊言王鹏吕志刚邸若海李晓艳许韫韬
申请(专利权)人:西安工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1