基于深度强化学习的未知环境下无人机自主路径规划方法技术

技术编号：37776866 阅读：14 留言：0更新日期：2023-06-09 09:07

本发明专利技术为一种基于深度强化学习的未知环境下无人机自主路径规划方法，其克服了现有技术中存在的经验重放机制无法提取重要样本以及稀疏奖励的问题。本发明专利技术包括以下步骤：1)在二维空间内建立无人机自主运动飞行模型，随机生成障碍物数量及位置，以及无人机的起始点；2)基于马尔可夫决策过程框架建立环境模型并设计阶梯奖励机制；3)基于状态和策略选择动作，将与环境交互所得的信息组成五元组存入经验池并依据所设计的优先级经验重放机制进行采样；4)采用改进的DQN算法基于环境模型采样得到的样本进行网络更新，并对样本的状态

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的未知环境下无人机自主路径规划方法

：
[0001]本专利技术属于强化学习和无人机避障
，涉及一种基于深度强化学习的未知环境下无人机自主运动路径规划方法。

技术介绍
：
[0002]在过去的几年中，无人机在各种实际任务中的应用呈上升趋势，如情报、监视和侦察、压制敌方防空、搜索和救援以及货物运送。在这些应用中，一个关键的要求是如何为无人机建立一个智能系统，在没有任何人为干预的情况下自主执行任务。具体来说，需要开发先进的智能技术，在动态的未知环境中，自主地将无人机从任意的出发点导航到目的地，同时避免途中的障碍与威胁。为了实现这一的任务，需要克服两个挑战：
[0003]1)环境的部分可观察性。无人机在开始时对环境一无所知，在任务中只能感知到部分信息。这一特点使得一些基于规则的路径规划方法无法使用，因为面对不确定的环境，不可能为所有可能的情况设计完整的规则。
[0004]2)环境的不可预测性。分散物体的不规则移动给无人机带来了一个不稳定的环境，基于同时定位与地图构建(Simultaneous Localization And Mapping,SLAM)的导航方法将变得难以解决，因为移动物体需要连续的映射，这将导致难以承受的计算成本。此外，基于传感规划的方法的开环机制，在没有对未来进行任何预测和推理的情况下做出决定，阻碍了它们对动态环境的适应性。
[0005]为了应对这些挑战，研究人员求助于强化学习(Reinforcement Learning,RL)技术，并致力于为无人机设计基于学习...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的未知环境下无人机自主路径规划方法，其特征在于：包括以下步骤：1)在二维空间内建立无人机自主运动飞行模型，随机生成障碍物数量及位置，以及无人机的起始点；2)基于马尔可夫决策过程框架建立环境模型，设计阶梯奖励机制；3)基于状态和策略选择动作，无人机采取动作后与环境交互产生新的状态并计算得到的奖励，将状态所对应的特征向量、动作、奖励、下一时刻状态所对应的特征向量和终止标志位组成五元组存储在经验池中，从所得经验池中依据优先级经验重放机制使用SumTree采样方法进行批次采样来训练网络模型；4)采用改进的DQN算法基于环境模型采样得到的样本进行网络更新，并对样本的状态
‑
动作对进行赋值；5)根据样本中状态下各个动作的Q值选择最优动作，进而得到最优策略。2.根据权利要求1所述的基于深度强化学习的未知环境下无人机自主路径规划方法，其特征在于：步骤1)中，为训练和测试建立一个二维世界，并在该二维世界中设置威胁。其中，无人机的起始位置是固定不变的，而威胁和目标的位置是随机变化的。3.根据权利要求1所述的基于深度强化学习的未知环境下无人机自主路径规划方法，其特征在于：步骤2)包括以下步骤：S2
‑
1、状态空间S描述为向量空间,t时刻环境的状态S
t
是它的环境状态集中某一个状态；S2
‑
2、动作空间A描述为离散向量空间,t时刻个体采取的动作A
t
是它的动作集中某一个动作；S2
‑
3、奖励信号R描述为环境对Agent动作的判断,t时刻个体在状态S
t
采取的动作A
t
对应的奖励R
t+1
会在t+1时刻得到；设计一种阶梯奖励机制，即在充分考虑运动规划问题特点的前提下，根据无人机与指定目标的距离动态设置奖励，从而丰富无人机运动过程中的中间奖励信息；S2
‑
4、个体的策略π描述为个体采取动作的依据，即个体会依据策略π来选择动作；S2
‑
5、Agent行动后的价值v
π
(s)描述为个体在策略π和状态s时，采取行动后的价值，为一个期望函数；S2
‑
6、奖励衰减因子γ，在[0,1]之间；如果为0，则是贪婪法，即价值只由当前延时奖励决定，如果是1，则所有的后续状态奖励和当前奖励一视同仁。大多数时候，取一个0到1之间的数字，即当前延时奖励的权重比后续奖励的权重大；S2
‑
7、环境的状态转化模型，表示为一个概率模型，即在状态s下采取动作a,转到下一个状态s
′
的概率，表示为S2
‑
8、探索率ε描述为Agent对下一步动作选择的概率，这个比率用在强化学习训练迭代过程中。4.根据权利要求1所述的基于深度强化学习的未知环境下无人机自主路径规划方法，...

【专利技术属性】
技术研发人员：贺楚超，田琳宇，辛泊言，王鹏，吕志刚，邸若海，李晓艳，许韫韬，
申请(专利权)人：西安工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人