一种基于状态熵与动作熵的无人机路径规划方法技术

技术编号：38901801 阅读：24 留言：0更新日期：2023-09-22 14:20

本发明专利技术涉及无人机路径规划领域，具体地涉及一种基于状态熵与动作熵的无人机路径规划方法，包括以下步骤：观测外部环境，并将相关信息输入无人机控制系统；进行状态熵估计和动作熵估计；使用SEAE算法将状态熵和动作熵整合为内在奖励；使用PPO算法计算外在奖励；计算总奖励，并朝着最大化总奖励的方向进行迭代；由PPO

全部详细技术资料下载

【技术实现步骤摘要】
一种基于状态熵与动作熵的无人机路径规划方法

[0001]本专利技术涉及无人机路径规划领域，具体地涉及一种基于状态熵与动作熵的无人机路径规划方法。

技术介绍

[0002]由于无人机具备操作灵活、成本低廉等优势，在运输业、农业、环境监测、军事等领域应用广泛。无论在何种应用场景中，自主路径规划都是无人机完成任务的前提与关键。自主路径规划是指无人机根据约束条件，在起点与目标点之间规划一条最优路径，而复杂环境中的路径规划一直是个颇具挑战性的课题。
[0003]深度强化学习是一种常见的无人机开发框架，但在稀疏奖励的环境中，无人机仍很难充分地探索状态空间和状态动作空间。虽然研究者提出了一些探索算法来解决稀疏奖励难题，如RND算法、NGU算法。但这些算法不是专门为无人机平台开发的，应用于无人路径规划时会出现训练过程不平稳、资源消耗大、忽视对状态动作空间的理解等问题。这不仅会降低路径规划的成功率，还限制了习框架的广泛应用和部署。

技术实现思路

[0004]本专利技术的目的在于克服现有技术存在的缺点，提出设计一种基于状态熵与动作熵的无人机路径规划方法，以解决稀疏环境中的无人机路径规划难题，具有易于实现、计算高效等优点，能以较高的成功率完成路径规划，更适合应用于无人机平台。
[0005]本专利技术解决其技术问题所采取的技术方案是：
[0006]一种基于状态熵与动作熵的无人机路径规划方法，包括以下步骤：
[0007]步骤1、观测外部环境，并将相关信息输入无人机控制系统；
[0008]步

【技术保护点】

【技术特征摘要】
1.一种基于状态熵与动作熵的无人机路径规划方法，其特征在于：包括以下步骤：步骤1、观测外部环境，并将相关信息输入无人机控制系统；步骤2、进行状态熵估计；步骤3、进行动作熵估计；步骤4、使用SEAE算法将状态熵和动作熵整合为内在奖励；步骤5、使用PPO算法计算外在奖励，计算公式为r
e
＝r
s
+r
p
，其中r
s
为奖励项，r
p
为惩罚项；步骤6、计算总奖励，并朝着最大化总奖励的方向进行迭代；步骤7、由PPO
‑
SEAE算法生成参考路径；步骤8、无人机追踪参考路径，实现无人机路径规划。2.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法，其特征在于：步骤2中，根据以下公式进行状态熵估计：其中，y
t
是状态s
t
的编码向量，是y
t
的K近邻，α是的指数的参数，取值范围为α∈(0,1)∪(1,+∞)。3.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法，其特征在于：步骤3中，根据以下公式进行动作熵估计：其中，a
t
表示智能体在t时间步时采取的动作，π(a|s
t
)表示在状态s
t
时执行动作a的概率。4.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法，其特征在于：步骤4中，所述SEAE内在奖励计算公式为：其中，y
t
是状态s
t
的编码向量，是y
t
的K近邻，α是参数，取值范围为α∈(0,1)∪(1,+∞)，τ是一个非负的权重因子，π(a|s
t
)表示在状态s
t
时执行动作a的概率。5.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法，其特征在于：所述SEAE包括状态熵估计器和动作熵估计器。6.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法，其特征在于：步骤6中，无人机在时间步t时的总奖励为：其中，超参数β
t...

【专利技术属性】
技术研发人员：吕慧，陈亚东，李世波，韩安东，刘丹丹，赵馥毓，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人