一种知识与数据协同驱动的无人机机动决策方法与系统技术方案

技术编号:36807098 阅读:14 留言:0更新日期:2023-03-09 00:21
本发明专利技术提供了一种知识与数据协同驱动的无人机机动决策方法与系统,解决了空战仿真中无人机机动动作的自主决策问题。本发明专利技术包括无人机运动模型、面向空战博弈的马尔科夫决策模型及知识与数据协同驱动的强化学习模型。首先利用专家经验数据进行预训练,获取较好的初始策略;之后在正式训练阶段,针对专家经验数据无法包含空战过程中所有状态的问题,构建行为克隆模型对专家经验数据进行训练,得到状态到动作的映射;利用该映射改进探索策略,使用带有专家知识的动作决策方法,对强化学习模型进行训练,从而实现智能机动决策。本发明专利技术可加快收敛速度,减少智能体与环境之间的交互,在不断的仿真和训练中提高无人机决策水平。断的仿真和训练中提高无人机决策水平。断的仿真和训练中提高无人机决策水平。

【技术实现步骤摘要】
一种知识与数据协同驱动的无人机机动决策方法与系统


[0001]本专利技术属于无人机
,具体涉及一种知识与数据协同驱动的无人机机动决策方法与系统。

技术介绍

[0002]无人机由于造价相对低廉、机动性好、安全系数高,已广泛应用于地质勘探、巡检、航拍等民用领域,同时也越来越多地被应用于侦察监视、预警、电子对抗等军事领域,在现代战争中发挥着越来越难以替代的作用。其中研究较多的便是无人机机动决策,即根据当前空战态势,自动生成合适的机动动作。但由于智能化水平的限制,目前仍无法实现无人机自主决策。因此,提升无人机的智能化水平,让无人机实现空战态势到机动动作的映射是当前主要的研究方向。
[0003]当前,无人机机动决策方法有很多。常用的方法可分为以下三类:基于对策理论的方法,如微分对策,矩阵对策等;基于专家知识的方法,如专家系统,影响图等;基于启发式学习的方法,如神经网络,遗传算法,强化学习等。其中,基于对策理论的方法求解复杂性较高,基于专家知识的方法难以对新知识进行扩展,且这两种方法的决策策略一般是固定的,无法满足复杂且瞬时变化的空战环境。基于启发式学习的方法在训练过程中优化自身模型的结构和参数,自适应性强,能够应对复杂多变的空战环境,其中深度强化学习方法通过与环境进行交互实时更新参数,选出的动作具有较强的合理性和实时性,能够更好地解决空战决策问题。但该方法仍存在数据利用率低,探索与利用的矛盾等问题。

技术实现思路

[0004]专利技术目的:本专利技术为了解决无人机机动决策问题,提出一种知识与数据协同驱动的无人机机动决策方法与系统,能够解决基于强化学习的机动决策中数据利用率低,探索与利用的矛盾等问题,通过专家知识进行预训练,加快收敛速度,同时改进探索策略,构建结合专家知识的动作决策方法,从而将专家知识引入到强化学习中,减少智能体与环境的交互,提升智能体的学习性能。
[0005]技术方案:本专利技术所述的一种知识与数据协同驱动的无人机机动决策方法,包括以下步骤:
[0006]建立无人机运动模型及作战双方的相对关系,构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中无人机的状态空间、动作空间以及奖励函数;
[0007]初始化作战双方的相对态势,初始化强化学习模型的价值Q网络参数、交互经验池、专家经验池以及用于实现探索的参数;
[0008]在预训练阶段,我方无人机只与专家经验池进行交互,预训练损失函数定义为单步损失函数、多步损失函数、监督损失函数和网络参数正则化损失的加权和;
[0009]在正式训练阶段,我方无人机开始与环境进行交互,动态更新交互经验池,针对专家经验池无法包含空战过程中所有状态的问题,使用行为克隆模型对专家经验池中的数据
进行训练,得到状态到动作的映射;从专家经验池与交互经验池中随机抽取数据,根据空战状态、探索参数选择动作并执行,如果抽取的数据为专家经验池中数据,则损失函数与预训练损失函数计算方式相同,如果抽取到的数据为交互经验池中数据,则不计算损失函数中的监督损失函数。
[0010]作为优选,无人机在地面坐标系下的三维空间运动学模型如下:
[0011][0012]无人机在地面坐标系下的三维空间动力学模型如下:
[0013][0014]其中,x、y和z分别表示无人机在地面坐标系中的坐标值,v表示无人机的行进速度,θ、ψ分别表示无人机的俯仰角和偏航角;g表示重力加速度;度,θ、ψ分别表示无人机的俯仰角和偏航角;g表示重力加速度;分别表示x、y、z对时间t求微分,n
x
为无人机的切向过载;n
z
为无人机的法向过载;μ是无人机的滚转角。
[0015]作为优选,空战过程中对敌双方的相对关系用态势来表示,包括:角度态势,高度态势,速度态势和距离态势;角度态势包括脱离角和偏离角,高度态势为红方和蓝方的高度以及最佳空战高度的关系,速度态势为红方和蓝方的速度以及最佳空战速度的关系,距离态势为红方和蓝方的距离。
[0016]作为优选,将空战机动决策过程建模为马尔科夫博弈模型,确定双方的状态空间、动作空间以及奖励函数,用元组(S,A,γ,R)表示,S,A,γ,R分别为状态空间,动作空间,折扣因子和奖励函数;其中将状态空间包括双方的速度、位置、俯仰角和偏航角,动作空间包括定常飞行、加速飞行、减速飞行、左转弯、右转弯、向上拉起和向下俯冲;奖励函数包括即时奖励和最终奖励,即时奖励包括角度态势、高度态势、速度态势和距离态势的奖励,最终奖励是指一方获胜、平局或失败获得的奖励。
[0017]作为优选,以红方为例相关奖励的定义如下:综合偏离角ATA和脱离角AA的角度奖励定义为:
[0018][0019]在高度奖励函数中引入一个校正量,校正后的高度奖励定义为:
[0020][0021][0022]式中,是红方速度在竖直方向上的分量,H0是一个常数参量,用来调整高度奖励函数的梯度,H
opt
是最佳空战高度,z
r
,z
b
是红方和蓝方高度,V
opt
是最佳空战速度;
[0023]速度奖励定义为:R
V
=R'
V
+R
V_self
[0024]当V
opt
>1.5v
b

[0025][0026]当V
opt
≤1.5v
b

[0027][0028]v
r
,v
b
是红方和蓝方速度;
[0029][0030]距离奖励定义为:
[0031][0032]D
opt
为最佳空战距离,D0是一个常数参量,用来调整距离奖励函数的梯度,d是红方和蓝方的距离。
[0033]作为优选,预训练损失函数表示为:
[0034]J(Q)=J
DQ
(Q)+λ1J
n
(Q)+λ2J
E
(Q)+λ3J
L2
(Q)
[0035]式中,λ1、λ2和λ3为分别为n步损失函数J
n
(Q)、监督损失函数J
E
(Q)和L2正则化损失函数J
L2
(Q)的权重参数;
[0036]设专家经验池D
demo
中每条专家数据的格式为(s
t
,a
t
,r
t
,r
tn
,s
t+1
,done),分别表示t时刻的状态、动作、一步奖励值、n步奖励值(n≥2)以及回合是否结束;
[0037]为使训练比较稳定,引入两个网络:价值Q网络和目标Q网络,二者的网络结构相
同,参数更新方式不同;价值Q网络随着训练时刻进行参数更新,目标Q网络每隔一段时间复制价值Q网络的参数进行更新。
[0038]单步损失函数J
DQ
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识与数据协同驱动的无人机机动决策方法,其特征在于,包括如下步骤:建立无人机运动模型及作战双方的相对关系,构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中无人机的状态空间、动作空间以及奖励函数;初始化作战双方的相对态势,初始化强化学习模型的价值Q网络参数、交互经验池、专家经验池以及用于实现探索的参数;在预训练阶段,我方无人机只与专家经验池进行交互,预训练损失函数定义为单步损失函数、多步损失函数、监督损失函数和网络参数正则化损失的加权和;在正式训练阶段,我方无人机开始与环境进行交互,动态更新交互经验池,针对专家经验池无法包含空战过程中所有状态的问题,使用行为克隆模型对专家经验池中的数据进行训练,得到状态到动作的映射;从专家经验池与交互经验池中随机抽取数据,根据空战状态、探索参数选择动作并执行,如果抽取的数据为专家经验池中数据,则损失函数与预训练损失函数计算方式相同,如果抽取到的数据为交互经验池中数据,则不计算损失函数中的监督损失函数。2.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,无人机在地面坐标系下的三维空间运动学模型如下:无人机在地面坐标系下的三维空间动力学模型如下:其中,x、y和z分别表示无人机在地面坐标系中的坐标值,v表示无人机的行进速度,θ、ψ分别表示无人机的俯仰角和偏航角;g表示重力加速度;分别表示无人机的俯仰角和偏航角;g表示重力加速度;分别表示x、y、z对时间t求微分,n
x
为无人机的切向过载;n
z
为无人机的法向过载;μ是无人机的滚转角。3.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,空战过程中对敌双方的相对关系用态势来表示,包括:角度态势,高度态势,速度态势和距离态势;角度态势包括脱离角和偏离角,高度态势为红方和蓝方的高度以及最佳空战高度的关系,速度态势为红方和蓝方的速度以及最佳空战速度的关系,距离态势为红方和蓝方的距离。4.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,将空战机动决策过程建模为马尔科夫博弈模型,确定双方的状态空间、动作空间以及奖励函数,用元组(S,A,γ,R)表示,S,A,γ,R分别为状态空间,动作空间,折扣因子和奖励函数;其中将状态空间包括双方的速度、位置、俯仰角和偏航角,动作空间包括定常飞行、加速飞行、减速飞行、左转弯、右转弯、向上拉起和向下俯冲;奖励函数包括即时奖励和最终奖
励,即时奖励包括角度态势、高度态势、速度态势和距离态势的奖励,最终奖励是指一方获胜、平局或失败获得的奖励。5.根据权利要求4所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,以红方为例相关奖励的定义如下:综合偏离角ATA和脱离角AA的角度奖励定义为:在高度奖励函数中引入一个校正量,校正后的高度奖励定义为:在高度奖励函数中引入一个校正量,校正后的高度奖励定义为:式中,是红方速度在竖直方向上的分量,H0是一个常数参量,用来调整高度奖励函数的梯度,H
opt
是最佳空战高度,z
r
,z
b
是红方和蓝方高度,V
opt
是最佳空战速度;速度奖励定义为:R
V
=R'
V
+R
V_self
当V
opt
>1.5v
b
时当V
opt
≤1.5v
b
时v
r
,v
b
是红方和蓝方速度;距离奖励定义为:
D
opt
为最佳空战距离,D0是一个常数参量,用来调整距离奖励函数的梯度,d是红方和蓝方的距离。6.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,预训练损失函数表示为:J(Q)=J
DQ
(...

【专利技术属性】
技术研发人员:李伟湋高培雪徐军路玉卿
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1