一种由专家规则引导神经网络学习无人机机动飞行的方法技术

技术编号:30764911 阅读:75 留言:0更新日期:2021-11-10 12:22
本申请涉及机器学习技术领域,具体涉及一种由专家规则引导神经网络学习无人机机动飞行的方法。该方法包括:步骤S1、采用模糊逻辑作为规则的表示方式将专家规则进行隶属度函数表示;步骤S2、基于满足规则的度输出无人机的次优动作决策;步骤S3、通过深度强化学习算法的一个全连接层学习对所述次优动作决策的修改,获得修改后的动作决策,最后输出的动作决策由次优动作决策和修改后的动作决策加权得到;步骤S4、以最后输出的动作决策进行神经网络算法的训练,获得收敛后的神经网络。本申请能够有效应用人类专家关于机动飞行的少量知识,使神经网络学会特定机动飞行。使神经网络学会特定机动飞行。使神经网络学会特定机动飞行。

【技术实现步骤摘要】
一种由专家规则引导神经网络学习无人机机动飞行的方法


[0001]本申请涉及机器学习
,具体涉及一种由专家规则引导神经网络学习无人机机动飞行的方法。

技术介绍

[0002]近年来,随着机器学习在无人机智能控制上的应用进展,一般认为,无人机机动飞行的控制策略,可以由神经网络构成的深度强化学习算法,通过不断尝试与环境交互来学到。
[0003]但是受限于用于无人机智能控制的神经网络初始化时,其参数均为随机产生,因此需要很长时间才能学会基本的飞行机动轨迹。如果能够使用人类专家的飞机操纵专家知识规则来引导神经网络避免低效的环境探索,将有望大幅提升神经网络学会无人机机动飞行控制的效率。

技术实现思路

[0004]为了解决上述问题,本专利技术提出一种由专家规则引导神经网络学习无人机机动飞行的方法,能够使用少量专家飞行知识规则,与现有基于神经网络的强化学习模型有机融合,按照强化学习算法的策略优化方式优化策略,等价于对规则的调整和学习,从而引导神经网络快速学会无人机机动飞行。在提升了无人机机动飞行技能学习效率的同时,也可对规则持续优化,同时也达到了提高神经网络操纵无人机机动飞行可解释性的目的。
[0005]本申请由专家规则引导神经网络学习无人机机动飞行的方法,主要包括:
[0006]步骤S1、采用模糊逻辑作为规则的表示方式将专家规则进行隶属度函数表示,其中,给定某一元素x,其隶属于集合A的隶属度定义为:μ
A
(x):X

[0,1],A和B是两个模糊集合,那么这两个集合的并集和交集的隶属度函数分别为:
[0007]μ
A∪B
(x)=max{μ
A
(x),μ
B
(x)}
[0008]μ
A∩B
(x)=min{μ
A
(x),μ
B
(x)};
[0009]步骤S2、基于满足规则的度作出决策z:
[0010][0011]其中,为模糊集合C的隶属度函数的逆函数,一个无人机动作决策由多个专家规则构成,将某专家规则下的各模糊集合的权重作为第一类优化参数,将各专家规则的权重作为第二类优化参数,形成计算决策的专家规则网络,输出无人机的次优动作决策;
[0012]步骤S3、通过深度强化学习算法的一个全连接层学习对所述次优动作决策的修改,获得修改后的动作决策,最后输出的动作决策由次优动作决策和修改后的动作决策加权得到;
[0013]步骤S4、以最后输出的动作决策进行神经网络算法的训练,获得收敛后的神经网络。
[0014]优选的是,步骤S2中,采用随机梯度下降优化第一类优化参数及第二类优化参数。
[0015]优选的是,步骤S3中,所述仿真训练环境包括:
[0016]在训练的开始阶段,无人机飞行知识规则输出的动作占比重大,即所述次优动作决策的权重初始值较大。
[0017]优选的是,步骤S4中,所述神经网络采以GAE计算方式计算优势函数。
[0018]本申请另一方面提供了一种电子设备,所述电子设备包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的由专家规则引导神经网络学习无人机机动飞行的方法。
[0019]本申请另一方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的由专家规则引导神经网络学习无人机机动飞行的方法。
[0020]本申请能够有效应用人类专家关于机动飞行的少量知识,使神经网络学会特定机动飞行。
附图说明
[0021]图1是本申请由专家规则引导神经网络学习无人机机动飞行的方法的基于规则的网络表征示意图。
[0022]图2是本申请知识规则与强化学习融合的网络示意图。
[0023]图3是本申请的电子设备的优选实施例示意图。
具体实施方式
[0024]为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。
[0025]本申请第一方面提供了一种由专家规则引导神经网络学习无人机机动飞行的方法,主要包括:
[0026]步骤S1、采用模糊逻辑作为规则的表示方式将专家规则进行隶属度函数表示,其中,给定某一元素x,其隶属于集合A的隶属度定义为:μ
A
(x):X

[0,1],A和B是两个模糊集合,那么这两个集合的并集和交集的隶属度函数分别为:
[0027]μ
A∪B
(x)=max{μ
A
(x),μ
B
(x)}
[0028]μ
A∩B
(x)=min{μ
A
(x),μ
B
(x)};
[0029]步骤S2、基于满足规则的度作出决策z:
[0030][0031]其中,为模糊集合C的隶属度函数的逆函数,一个无人机动作决策由多个专家
规则构成,将某专家规则下的各模糊集合的权重作为第一类优化参数,将各专家规则的权重作为第二类优化参数,形成计算决策的专家规则网络,输出无人机的次优动作决策;
[0032]步骤S3、通过深度强化学习算法的一个全连接层学习对所述次优动作决策的修改,获得修改后的动作决策,最后输出的动作决策由次优动作决策和修改后的动作决策加权得到;
[0033]步骤S4、以最后输出的动作决策进行神经网络算法的训练,获得收敛后的神经网络。以下详细说明。
[0034]首先对人类专家操纵无人机飞行的知识规则进行网络化表征。我们提出采用模糊逻辑作为规则的表示方式。给定某一元素x,其隶属于集合A的隶属度定义为:μ
A
(x):X

[0,1]。假设A和B是两个模糊集合,那么这两个集合的并集和交集的隶属度函数分别为:
[0035]μ
A∪B
(x)=max{μ
A
(x),μ
B
(x)}
[0036]μ
A∩B
(x)=min{μ
A
(x),μ
B
(x)}
[0037]给定一条规则如“if X is A and Y is B then Z is C”,假设x0,y0分别为X和Y的观测值。那么该规则的先决条件的满足程度可以用下式计算:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种由专家规则引导神经网络学习无人机机动飞行的方法,其特征在于,包括:步骤S1、采用模糊逻辑作为规则的表示方式将专家规则进行隶属度函数表示,其中,给定某一元素x,其隶属于集合A的隶属度定义为:μ
A
(x):X

[0,1],A和B是两个模糊集合,那么这两个集合的并集和交集的隶属度函数分别为:μ
A∪B
(x)=max{μ
A
(x),μ
B
(x)}μ
A∩B
(x)=min{μ
A
(x),μ
B
(x)};步骤S2、基于满足规则的度作出决策z:其中,为模糊集合C的隶属度函数的逆函数,一个无人机动作决策由多个专家规则构成,将某专家规则下的各模糊集合的权重作为第一类优化参数,将各专家规则的权重作为第二类优化参数,形成计算决策的专家规则网络,输出无人机的次优动作决策;步骤S3、通过深度强化学习算法的一个全连接层学习对所述次优动作决策的修改,获得修改后的动作决策,最后输出的动作...

【专利技术属性】
技术研发人员:朴海音孙智孝孙阳于津彭宣淇韩玥杨晟琦李俊男
申请(专利权)人:中国航空工业集团公司沈阳飞机设计研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1