【技术实现步骤摘要】
一种基于状态熵与动作熵的无人机路径规划方法
[0001]本专利技术涉及无人机路径规划领域,具体地涉及一种基于状态熵与动作熵的无人机路径规划方法。
技术介绍
[0002]由于无人机具备操作灵活、成本低廉等优势,在运输业、农业、环境监测、军事等领域应用广泛。无论在何种应用场景中,自主路径规划都是无人机完成任务的前提与关键。自主路径规划是指无人机根据约束条件,在起点与目标点之间规划一条最优路径,而复杂环境中的路径规划一直是个颇具挑战性的课题。
[0003]深度强化学习是一种常见的无人机开发框架,但在稀疏奖励的环境中,无人机仍很难充分地探索状态空间和状态动作空间。虽然研究者提出了一些探索算法来解决稀疏奖励难题,如RND算法、NGU算法。但这些算法不是专门为无人机平台开发的,应用于无人路径规划时会出现训练过程不平稳、资源消耗大、忽视对状态动作空间的理解等问题。这不仅会降低路径规划的成功率,还限制了习框架的广泛应用和部署。
技术实现思路
[0004]本专利技术的目的在于克服现有技术存在的缺点,提出设计一种基于状态熵与动作熵的无人机路径规划方法,以解决稀疏环境中的无人机路径规划难题,具有易于实现、计算高效等优点,能以较高的成功率完成路径规划,更适合应用于无人机平台。
[0005]本专利技术解决其技术问题所采取的技术方案是:
[0006]一种基于状态熵与动作熵的无人机路径规划方法,包括以下步骤:
[0007]步骤1、观测外部环境,并将相关信息输入无人机控制系统;
[0008]步
【技术保护点】
【技术特征摘要】
1.一种基于状态熵与动作熵的无人机路径规划方法,其特征在于:包括以下步骤:步骤1、观测外部环境,并将相关信息输入无人机控制系统;步骤2、进行状态熵估计;步骤3、进行动作熵估计;步骤4、使用SEAE算法将状态熵和动作熵整合为内在奖励;步骤5、使用PPO算法计算外在奖励,计算公式为r
e
=r
s
+r
p
,其中r
s
为奖励项,r
p
为惩罚项;步骤6、计算总奖励,并朝着最大化总奖励的方向进行迭代;步骤7、由PPO
‑
SEAE算法生成参考路径;步骤8、无人机追踪参考路径,实现无人机路径规划。2.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤2中,根据以下公式进行状态熵估计:其中,y
t
是状态s
t
的编码向量,是y
t
的K近邻,α是的指数的参数,取值范围为α∈(0,1)∪(1,+∞)。3.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤3中,根据以下公式进行动作熵估计:其中,a
t
表示智能体在t时间步时采取的动作,π(a|s
t
)表示在状态s
t
时执行动作a的概率。4.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤4中,所述SEAE内在奖励计算公式为:其中,y
t
是状态s
t
的编码向量,是y
t
的K近邻,α是参数,取值范围为α∈(0,1)∪(1,+∞),τ是一个非负的权重因子,π(a|s
t
)表示在状态s
t
时执行动作a的概率。5.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:所述SEAE包括状态熵估计器和动作熵估计器。6.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤6中,无人机在时间步t时的总奖励为:其中,超参数β
t...
【专利技术属性】
技术研发人员:吕慧,陈亚东,李世波,韩安东,刘丹丹,赵馥毓,
申请(专利权)人:齐鲁工业大学山东省科学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。