【技术实现步骤摘要】
一种知识与数据协同驱动的无人机机动决策方法与系统
[0001]本专利技术属于无人机
,具体涉及一种知识与数据协同驱动的无人机机动决策方法与系统。
技术介绍
[0002]无人机由于造价相对低廉、机动性好、安全系数高,已广泛应用于地质勘探、巡检、航拍等民用领域,同时也越来越多地被应用于侦察监视、预警、电子对抗等军事领域,在现代战争中发挥着越来越难以替代的作用。其中研究较多的便是无人机机动决策,即根据当前空战态势,自动生成合适的机动动作。但由于智能化水平的限制,目前仍无法实现无人机自主决策。因此,提升无人机的智能化水平,让无人机实现空战态势到机动动作的映射是当前主要的研究方向。
[0003]当前,无人机机动决策方法有很多。常用的方法可分为以下三类:基于对策理论的方法,如微分对策,矩阵对策等;基于专家知识的方法,如专家系统,影响图等;基于启发式学习的方法,如神经网络,遗传算法,强化学习等。其中,基于对策理论的方法求解复杂性较高,基于专家知识的方法难以对新知识进行扩展,且这两种方法的决策策略一般是固定的,无法满足复杂且瞬时变化的空战环境。基于启发式学习的方法在训练过程中优化自身模型的结构和参数,自适应性强,能够应对复杂多变的空战环境,其中深度强化学习方法通过与环境进行交互实时更新参数,选出的动作具有较强的合理性和实时性,能够更好地解决空战决策问题。但该方法仍存在数据利用率低,探索与利用的矛盾等问题。
技术实现思路
[0004]专利技术目的:本专利技术为了解决无人机机动决策问题,提出一种知识与数据协 ...
【技术保护点】
【技术特征摘要】
1.一种知识与数据协同驱动的无人机机动决策方法,其特征在于,包括如下步骤:建立无人机运动模型及作战双方的相对关系,构建空战机动决策的马尔科夫博弈模型,定义空战机动决策过程中无人机的状态空间、动作空间以及奖励函数;初始化作战双方的相对态势,初始化强化学习模型的价值Q网络参数、交互经验池、专家经验池以及用于实现探索的参数;在预训练阶段,我方无人机只与专家经验池进行交互,预训练损失函数定义为单步损失函数、多步损失函数、监督损失函数和网络参数正则化损失的加权和;在正式训练阶段,我方无人机开始与环境进行交互,动态更新交互经验池,针对专家经验池无法包含空战过程中所有状态的问题,使用行为克隆模型对专家经验池中的数据进行训练,得到状态到动作的映射;从专家经验池与交互经验池中随机抽取数据,根据空战状态、探索参数选择动作并执行,如果抽取的数据为专家经验池中数据,则损失函数与预训练损失函数计算方式相同,如果抽取到的数据为交互经验池中数据,则不计算损失函数中的监督损失函数。2.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,无人机在地面坐标系下的三维空间运动学模型如下:无人机在地面坐标系下的三维空间动力学模型如下:其中,x、y和z分别表示无人机在地面坐标系中的坐标值,v表示无人机的行进速度,θ、ψ分别表示无人机的俯仰角和偏航角;g表示重力加速度;分别表示无人机的俯仰角和偏航角;g表示重力加速度;分别表示x、y、z对时间t求微分,n
x
为无人机的切向过载;n
z
为无人机的法向过载;μ是无人机的滚转角。3.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,空战过程中对敌双方的相对关系用态势来表示,包括:角度态势,高度态势,速度态势和距离态势;角度态势包括脱离角和偏离角,高度态势为红方和蓝方的高度以及最佳空战高度的关系,速度态势为红方和蓝方的速度以及最佳空战速度的关系,距离态势为红方和蓝方的距离。4.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,将空战机动决策过程建模为马尔科夫博弈模型,确定双方的状态空间、动作空间以及奖励函数,用元组(S,A,γ,R)表示,S,A,γ,R分别为状态空间,动作空间,折扣因子和奖励函数;其中将状态空间包括双方的速度、位置、俯仰角和偏航角,动作空间包括定常飞行、加速飞行、减速飞行、左转弯、右转弯、向上拉起和向下俯冲;奖励函数包括即时奖励和最终奖
励,即时奖励包括角度态势、高度态势、速度态势和距离态势的奖励,最终奖励是指一方获胜、平局或失败获得的奖励。5.根据权利要求4所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,以红方为例相关奖励的定义如下:综合偏离角ATA和脱离角AA的角度奖励定义为:在高度奖励函数中引入一个校正量,校正后的高度奖励定义为:在高度奖励函数中引入一个校正量,校正后的高度奖励定义为:式中,是红方速度在竖直方向上的分量,H0是一个常数参量,用来调整高度奖励函数的梯度,H
opt
是最佳空战高度,z
r
,z
b
是红方和蓝方高度,V
opt
是最佳空战速度;速度奖励定义为:R
V
=R'
V
+R
V_self
当V
opt
>1.5v
b
时当V
opt
≤1.5v
b
时v
r
,v
b
是红方和蓝方速度;距离奖励定义为:
D
opt
为最佳空战距离,D0是一个常数参量,用来调整距离奖励函数的梯度,d是红方和蓝方的距离。6.根据权利要求1所述的一种知识与数据协同驱动的无人机机动决策方法,其特征在于,预训练损失函数表示为:J(Q)=J
DQ
(...
【专利技术属性】
技术研发人员:李伟湋,高培雪,徐军,路玉卿,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。