一种基于状态熵与动作熵的无人机路径规划方法技术

技术编号:38901801 阅读:24 留言:0更新日期:2023-09-22 14:20
本发明专利技术涉及无人机路径规划领域,具体地涉及一种基于状态熵与动作熵的无人机路径规划方法,包括以下步骤:观测外部环境,并将相关信息输入无人机控制系统;进行状态熵估计和动作熵估计;使用SEAE算法将状态熵和动作熵整合为内在奖励;使用PPO算法计算外在奖励;计算总奖励,并朝着最大化总奖励的方向进行迭代;由PPO

【技术实现步骤摘要】
一种基于状态熵与动作熵的无人机路径规划方法


[0001]本专利技术涉及无人机路径规划领域,具体地涉及一种基于状态熵与动作熵的无人机路径规划方法。

技术介绍

[0002]由于无人机具备操作灵活、成本低廉等优势,在运输业、农业、环境监测、军事等领域应用广泛。无论在何种应用场景中,自主路径规划都是无人机完成任务的前提与关键。自主路径规划是指无人机根据约束条件,在起点与目标点之间规划一条最优路径,而复杂环境中的路径规划一直是个颇具挑战性的课题。
[0003]深度强化学习是一种常见的无人机开发框架,但在稀疏奖励的环境中,无人机仍很难充分地探索状态空间和状态动作空间。虽然研究者提出了一些探索算法来解决稀疏奖励难题,如RND算法、NGU算法。但这些算法不是专门为无人机平台开发的,应用于无人路径规划时会出现训练过程不平稳、资源消耗大、忽视对状态动作空间的理解等问题。这不仅会降低路径规划的成功率,还限制了习框架的广泛应用和部署。

技术实现思路

[0004]本专利技术的目的在于克服现有技术存在的缺点,提出设计一种基于状态熵与动作熵的无人机路径规划方法,以解决稀疏环境中的无人机路径规划难题,具有易于实现、计算高效等优点,能以较高的成功率完成路径规划,更适合应用于无人机平台。
[0005]本专利技术解决其技术问题所采取的技术方案是:
[0006]一种基于状态熵与动作熵的无人机路径规划方法,包括以下步骤:
[0007]步骤1、观测外部环境,并将相关信息输入无人机控制系统;
[0008]步骤2、进行状态熵估计;
[0009]步骤3、进行动作熵估计;
[0010]步骤4、使用SEAE算法将状态熵和动作熵整合为内在奖励;
[0011]步骤5、使用PPO算法计算外在奖励,计算公式为r
e
=r
s
+r
p
,其中r
s
为奖励项,r
p
为惩罚项;
[0012]步骤6、计算总奖励,并朝着最大化总奖励的方向进行迭代;
[0013]步骤7、由PPO

SEAE算法生成参考路径;
[0014]步骤8、无人机追踪参考路径,实现无人机路径规划。
[0015]进一步的,步骤2中,根据以下公式进行状态熵估计:
[0016][0017]其中,y
t
是状态s
t
的编码向量,是y
t
的K近邻,α是的指数的参数,取值范围为α∈(0,1)∪(1,+∞)。
[0018]进一步的,步骤3中,根据以下公式进行动作熵估计:
[0019][0020]其中,a
t
表示智能体在t时间步时采取的动作,π(a|s
t
)表示在状态s
t
时执行动作a的概率。
[0021]进一步的,步骤4中,所述SEAE内在奖励计算公式为:
[0022][0023]其中,y
t
是状态s
t
的编码向量,是y
t
的K近邻,α是参数,取值范围为α∈(0,1)∪(1,+∞),τ是一个非负的权重因子,π(a|s
t
)表示在状态s
t
时执行动作a的概率。
[0024]进一步的,所述SEAE包括状态熵估计器和动作熵估计器,所述状态熵估计器的核心思想是在一个固定的随机初始化的编码器的表示空间中进行K近邻状态熵估计。
[0025]进一步的,步骤6中,无人机在时间步t时的总奖励为:
[0026][0027]其中,超参数β
t
>0,决定了在时间步为t时探索(exploration)和利用(exploitation)之间的平衡。
[0028]进一步的,无人机在训练开始时更关注内部奖励,外部奖励逐渐可用的时候,会减少内部奖励的权重,因此,本专利技术对β
t
使用了指数衰减策略,β
t
计算方式为:
[0029]β
t
=β0(1

ρ)
t

[0030]其中,ρ是衰减率,β0是内在奖励的初始权重。
[0031]进一步的,基于PPO

SEAE算法的时序差分更新方程为:
[0032]E
T
=β
t
r
i
+(1

β
t
)r
e

·
V(s
t+1
)

V(s
t
),
[0033]其中,β
t
时间步为t时内部奖励的权重,r
i
表示内部奖励,r
e
表示外部奖励,γ是折扣因子,V(s
t
)是状态为s
t
时的值函数,V(s
t+1
)是状态为s
t+1
时的值函数。
[0034]进一步的,所述PPO

SEAE算法的更新方程描述为:
[0035][0036]其中,β
t
为时间步为t时内部奖励的权重,r
i
表示内部奖励,r
e
表示外部奖励,γ是折扣因子,V(s
t
)是状态为s
t
时的值函数,V(s
t+1
)是状态为s
t+1
时的值函数,π
θ
(a
t
|s
t
)表示状态为s
t
时采取动作a
t
的概率。
[0037]本专利技术的技术效果:
[0038]与现有技术相比,本专利技术的一种基于状态熵与动作熵的无人机路径规划方法,根据状态熵与动作熵产生稳定的内在奖励,有效缓解了外在奖励不足的问题,具有易于实现、计算高效等优点;能有效鼓励无人机对状态空间和状态动作空间的探索,使处在各种状态中的无人机准确选择最优动作,提高路径规划的成功率,使策略得到有意义的反馈和高效的更新。本专利技术能以较高的成功率完成路径规划,更适合应用于无人机平台。
附图说明
[0039]图1为本专利技术PPO

SEAE算法结构图;
[0040]图2为本专利技术房间A示意图;
[0041]图3为本专利技术房间B示意图;
[0042]图4为本专利技术房间C示意图;
[0043]图5为本专利技术房间A中获得的奖励图;
[0044]图6为本专利技术房间B中获得的奖励图;
[0045]图7为本专利技术房间C中获得的奖励图。
具体实施方式
[0046]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面结合说明书附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0047]实施例1:...

【技术保护点】

【技术特征摘要】
1.一种基于状态熵与动作熵的无人机路径规划方法,其特征在于:包括以下步骤:步骤1、观测外部环境,并将相关信息输入无人机控制系统;步骤2、进行状态熵估计;步骤3、进行动作熵估计;步骤4、使用SEAE算法将状态熵和动作熵整合为内在奖励;步骤5、使用PPO算法计算外在奖励,计算公式为r
e
=r
s
+r
p
,其中r
s
为奖励项,r
p
为惩罚项;步骤6、计算总奖励,并朝着最大化总奖励的方向进行迭代;步骤7、由PPO

SEAE算法生成参考路径;步骤8、无人机追踪参考路径,实现无人机路径规划。2.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤2中,根据以下公式进行状态熵估计:其中,y
t
是状态s
t
的编码向量,是y
t
的K近邻,α是的指数的参数,取值范围为α∈(0,1)∪(1,+∞)。3.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤3中,根据以下公式进行动作熵估计:其中,a
t
表示智能体在t时间步时采取的动作,π(a|s
t
)表示在状态s
t
时执行动作a的概率。4.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤4中,所述SEAE内在奖励计算公式为:其中,y
t
是状态s
t
的编码向量,是y
t
的K近邻,α是参数,取值范围为α∈(0,1)∪(1,+∞),τ是一个非负的权重因子,π(a|s
t
)表示在状态s
t
时执行动作a的概率。5.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:所述SEAE包括状态熵估计器和动作熵估计器。6.根据权利要求1所述的基于状态熵与动作熵的无人机路径规划方法,其特征在于:步骤6中,无人机在时间步t时的总奖励为:其中,超参数β
t...

【专利技术属性】
技术研发人员:吕慧陈亚东李世波韩安东刘丹丹赵馥毓
申请(专利权)人:齐鲁工业大学山东省科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1