一种基于深度强化学习的无人机避障方法技术

技术编号:32456438 阅读:52 留言:0更新日期:2022-02-26 08:35
本发明专利技术公开了一种基于深度强化学习的无人机避障方法,包括以下步骤:1)在三维空间内建立无人机避障飞行模型,随机生成障碍物数量位置,以及无人机的起始点;2)基于马尔可夫过程框架建立环境模型,3)基于状态和策略选择动作,无人机采取动作后与环境交互产生新的状态并计算得到的奖励,将状态、动作、奖励和下一时刻动作组成四元数通过改进的方法存储在样本空间中,以供样本采样训练;4)采用改进DDQN算法对环境模型采样得到的样本进行网络更新,并对样本的状态

【技术实现步骤摘要】
一种基于深度强化学习的无人机避障方法


[0001]本专利技术属于智能决策
,具体涉及一种基于深度强化学习的无人机避障方法。

技术介绍

[0002]随着无人机在军事战争和民用领域中起着越来越重要的作用,在多种任务场景中都需要无人机在没有人为干预的情况下自主飞行完成任务。因此,找到一种合适的方法来解决无人机自主飞行时的避障问题,可以在一定程度上提高无人机任务的成功率。传统的避障方法,如人工势场法、可视图法、粒子群优化算法,虽然已经十分成熟,但却需要根据不同的情况建立不同的模型。然而在实际的无人机飞行环境中,往往需要无人机在未知环境中进行探测并实时决策。
[0003]强化学习是一种通过不断和环境交互进行优化的方法,无人机选择动作作用于环境,对产生状态变化进行评估,通过训练优化,最终使无人机在每个状态都能采取最优的动作。强化学习已经应用于无人机的避障问题中,由于无人机避障是连续空间中的问题,需要结合神经网络来对每一个状态

动作对赋值,但是结合神经网络的学习容易出现训练过程不稳定的情况。

技术实现思路

[0004]为了解决现有技术中的不足,本专利技术提供了一种基于深度强化学习的无人机避障方法,将改进的DDQN算法应用到无人机避障飞行中,利用无人机与环境的交互训练得到飞行策略,从而实现无人机在不确定环境中的避障。
[0005]为达到上述目的,本专利技术采用如下技术方案:本专利技术的一种基于深度强化学习的无人机避障方法,包括如下步骤:
[0006]步骤1,在三维空间内建立无人机避障飞行模型,随机生成障碍物数量、位置、以及无人机的起始点;
[0007]步骤2,基于马尔可夫过程框架建立环境模型,包括状态空间S、动作空间A、奖励函数R,状态转移概率P;
[0008]步骤3,基于状态和策略选择动作,无人机采取动作后与环境交互产生新的状态并计算得到的奖励,将状态、动作、奖励和下一时刻动作组成四元数存储在DDQN算法的经验池中,以供样本采样训练;
[0009]步骤4,采用DDQN算法对环境模型采样得到的样本进行网络更新,并对样本的状态

动作对进行赋值;
[0010]步骤5,根据样本中状态下各个动作的赋值选择最优动作,进而得到最优策略。
[0011]进一步的,步骤2中基于马尔可夫过程框架建立环境模型,包括状态空间S、动作空间A、奖励函数R和状态转移概率P,具体为:
[0012]建立的状态空间S包括无人机的当前方位角无人机与最近障碍物的水平距离
d
a
、无人机与最近障碍物高度差d
ha
、无人机与和离其距离最短障碍物中心点组成的向量与x轴的夹角无人机与飞行任务点的水平距离d
o
、无人机与飞行任务点的高度差d
ho
、无人机与飞行任务点组成向量与x轴的夹角记为
[0013]动作空间A包括无人机单位时间内航向角的变化和航迹倾斜角的变化;
[0014]建立的奖励函数R设计为:
[0015][0016]式中,r
o
(k)为无人机与障碍物距离发生变化产生的奖励,r
s
为任务成功是产生的奖励,r
f
为任务失败产生的奖励,r
a
(k)无人机与目标点距离发生变化产生的奖励,r
a
(k)人机与目标点距离变化产生的奖励,r
ha
(k)为无人机与目标点高度差变化产生的奖励,d
o
为无人机与最近障碍物的距离,是判断无人机是否发生碰撞最主要的参数,d
a
为无人机与目标点之间的距离,r
ha
为无人机与目标点之间的高度差,D
et
为无人机安全距离。
[0017]状态转移概率P(s'|s),表示状态s下根据采用训练得到的策略执行动作,状态由s转移到s

的概率。
[0018]进一步的,步骤3中四元数被存储在DDQN算法的经验池中,具体存储方法为,对DDQN算法的经验池进行划分,分为正经验池和负经验池,奖励值为正则将四元数存储在正经验池,奖励值为负则将四元数存储在负经验池。
[0019]进一步的,步骤3中样本采样的方法是,对正经验池中的样本采用先随机后优先的采样方法,对负经验池的样本采用随机采样的方法,采样得到的样本表示为:
[0020]D=m
p
+m
n
[0021]式中,D为训练中选取的样本,m
p
表示从正经验池中抽取的样本,m
n
表示从负经验池中抽取的样本。
[0022]本专利技术的有益效果:本专利技术基于DDQN算法,建立无人机三维避障飞行模型,使用分割经验池的方法对DDQN训练时的采样数据进行优化,实现了无人机在不确定环境中的避障飞行,解决了传统避障方法需要进行大规模环境建模的问题,且对采样方法的优化在一定程度上解决了强化学习避障中的训练不稳定问题。
[0023]本专利技术提出的方法适用于环境未完全已知的情形下,不考虑环境的具体建模,仅
以无人机与环境的交互来作为学习的基础,可以使无人机在探索的过程中有效避障,适用性和可扩展性较强。
附图说明
[0024]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0025]图1为本专利技术的结构原理示意图。
[0026]图2为本专利技术方法与改进前在训练过程中的平均奖励图。
[0027]图3为本专利技术实例中无人机避障的轨迹图。
具体实施方式
[0028]为使本领域技术人员更好地理解本专利技术的技术方案,下面结合具体实施方式对本专利技术作进一步详细描述。
[0029]本专利技术的一种基于深度强化学习的无人机避障方法,方法流程图如图1所示,无人机在含有未知障碍物的环境中飞行,按照贪婪策略选择动作后,执行动作与环境交互后会产生新的状态并计算得到状态改变产生的奖励,算法将无人机执行动作前的状态,采取的动作,得到的奖励和执行动作后的状态根据奖励值的大小存储在正负两个经验池中,算法分别从两个经验池中抽取样本组成训练样本,利用这些样本对目标神经网络和估计神经网络采用时序差分误差的方法进行训练和参数更新,使两个网络得到的Q值差收敛到0,最终使得策略能使无人机在每个状态下选择Q值最大的动作,得到飞行策略。训练得到的策略输入为无人机当前的状态,输出为当前状态下使得状态动作Q值最大时的动作,这样就实现了无人机在不确定环境中的避障飞行决策。
[0030]本专利技术的一种基于深度强化学习的无人机避障方法,包括如下步骤:
[0031]步骤1,在三维空间内建立无人机避障飞行模型,随机生成障碍物数量位置,以及无人机的起始点;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无人机避障方法,其特征在于,包括如下步骤:步骤1,在三维空间内建立无人机避障飞行模型,随机生成障碍物数量、位置、以及无人机的起始点;步骤2,基于马尔可夫过程框架建立环境模型,包括状态空间S、动作空间A、奖励函数R,状态转移概率P;步骤3,基于状态和策略选择动作,无人机采取动作后与环境交互产生新的状态并计算得到的奖励,将状态、动作、奖励和下一时刻动作组成四元数存储在DDQN算法的经验池中,以供样本采样训练;步骤4,采用DDQN算法对环境模型采样得到的样本进行网络更新,并对样本的状态

动作对进行赋值;步骤5,根据样本中状态下各个动作的赋值选择最优动作,进而得到最优策略。2.根据权利要求1所述一种基于深度强化学习的无人机避障方法,其特征在于,步骤2中基于马尔可夫过程框架建立环境模型,包括状态空间S、动作空间A、奖励函数R和状态转移概率P,具体为:建立的状态空间S包括无人机的当前方位角无人机与最近障碍物的水平距离d
a
、无人机与最近障碍物高度差d
ha
、无人机与和离其距离最短障碍物中心点组成的向量与x轴的夹角无人机与飞行任务点的水平距离d
o
、无人机与飞行任务点的高度差d
ho
、无人机与飞行任务点组成向量与x轴的夹角记为动作空间A包括无人机单位时间内航向角的变化和航迹倾斜角的变化;建立的奖励函数R设计为:式中,r
o
(k)为无人机与障碍物距离发生变化产生的奖励,r
s
为任务成功是产生的奖励,r
f
为任务失败产生的奖励,r
a
(k)无人机与目标点距离发生变化产生的奖励,r
a
(k)人机与目标点距离变化产生的奖励,r
ha
(k)为无人机与目标点高度差变化产生的奖励,d
o
为无人机与最近障碍物的距离,是判断无人机是否发生碰撞最主要的参数,d
a
为无人机与目标点之间的距离,r
ha
为无人机与目标点之间的高度差,D
et
为无人机安全距离...

【专利技术属性】
技术研发人员:曹红波赵启刘亮甄子洋
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1