当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于制造技术

技术编号:39578394 阅读:9 留言:0更新日期:2023-12-03 19:29
本发明专利技术提供了一种基于

【技术实现步骤摘要】
一种基于LQR近视距的无人机空战攻击方法


[0001]本专利技术涉及无人机
,尤其涉及一种基于
LQR
近视距的无人机空战攻击方法


技术介绍

[0002]随着航空技术

通信技术

计算机技术和传感器技术的飞速发展,无人机的性能和功能不断提升,使其成为一种灵活多样且高效的军事工具

近视距空战是空战中最为激烈和危险的阶段,当敌方战机之间的距离较近时,直接进行目视观察和交战的情况

在近视距空战中,飞行员需要依靠自己的目视和机动技能来追击和攻击敌方战机,相比传统的有人飞行器,无人机通常具有更低的制造和运营成本,同时在作战中无需搭载人员,从而降低了飞行员的风险

[0003]郑恩辉教授在

四旋翼无人机的二阶滑模控制

一文中指出:在实际任务中,飞机的稳定性很容易受到突然改变的命令的影响,能够为飞机提供准确和强大控制的飞行控制器设计在飞行过程中至关重要

而一些传统控制算法在复杂的非线性环境中可能难以找到全局最优解,并且在现实世界中,系统和环境的变化可能导致传统控制方法效果下降,虽然传统控制算法通常能较好地完成单一目标的优化,但在实际应用中,系统可能需要同时满足多个不同的目标和要求,难以处理多目标优化问题,因此在无人机空战领域效果不明显


技术实现思路

[0004]本专利技术的目的在于提供一种基于
LQR
>近视距的无人机空战攻击方法,首先使用深度强化学习算法在离线环境中对无人机进行训练,再根据无人机自身的传感器系统检测敌机状态信息,并进行实时跟踪,然后基于系统模型和目标跟踪信息,计算出最优的控制输入,最后利用近视距内的目标信息,选择合适的攻击策略

本专利技术增强无人机战场控制的适应力,提高容错性

作战效能

[0005]本专利技术是通过如下措施实现的:一种基于
LQR
近视距的无人机空战攻击方法,包括以下步骤:
[0006]步骤一

使用深度强化学习算法在离线环境中对无人机进行训练,实现自适应性和鲁棒性,适应复杂动态环境;
[0007]步骤二

基于系统模型和目标跟踪信息,计算出最优的控制输入,根据近视距内的目标信息,选择合适的攻击策略,提高空战效果和智能决策能力

[0008]进一步地,所述步骤一包含如下步骤:
[0009]1‑
1)
:用
Q

learning
算法学习无人机在不同状态下采取的最佳动作,通过自身传感器系统周期性感知我方无人机的态势信息
s
a
,其中
ν
为我方无人机的速度信息
,h
为我方无人机高度态势信息,分别为无人机航向角,横滚角,俯仰角态势信息,以最大化长期累积奖励,构建
Q
值函数;
[0010]1‑
2)
:使用函数逼近方法拟合
Q
值函数

定义动作向量
s
b
,其中
s
b

[throttle,
pitch,roll],
throttle
表示油门控制,
pitch
表示俯仰角控制,
roll
表示横滚角控制

定义
Q
值函数为
Q(s
a
,s
b
)
,它估计在状态
s
a
下,采取动作
s
b
的长期累积奖励,为了将
Q
值函数逼近为一个线性二次函数,需要定义一个特征向量
phi(s
a
,s
b
)
来表示状态和动作的特征,同时增加一些高次项和交叉项,引入非线性关系,即:
[0011][0012]此外通过与环境交互,收集一系列的样本数据,包括当前状态
s
a

采取的动作
s
b

奖励
r
和下一个状态
s
a
'。
利用这些样本数据,可以建立一个训练集
D
,其中每个样本包含
phi(s
a
,s
b
)
和目标
Q

targetQ
,即:
[0013]D

{(phi(s
a1
,s
b1
),targetQ1),(phi(s
a2
,s
b2
),targetQ2),...}

[0014]然后,使用线性回归来优化权重向量
w
,使得估计的
Q
值函数逼近目标
Q


线性回归的优化目标可以表示为:
[0015]其中
n
为样本数量

[0016]因此通过线性函数逼近方法,将
Q
值函数表示为
Q(s
a
,s
b
)

w
T
*phi(s
a
,s
b
)
,其中
w
是线性回归的权重向量,重复执行上述步骤,通过不断收集样本数据

计算目标
Q


线性回归拟合和更新
Q
值函数,逐渐优化
Q
值函数的估计

[0017]1‑
3)
:通过自身传感器系统周期性感知我方无人机的态势信息
s
a
,敌方态势信息
s
c
,其中
,s
c
为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息,根据
Minimum jerk
算法进行轨迹跟踪,生成追击路径

[0018]进一步地,所述步骤三中包含如下步骤:
[0019]2‑
1):
将无人机的水平位置和速度为状态量:
X

[p v]T
,
将加速度设为输入量:
u

a,
则可以得到离散时间系统方程
:X
d
(k+1)

AX
d
(k)+Ba
d
(k)
,其中,
A

4*4
离散时间状态转移本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于
LQR
近视距的无人机空战攻击方法,其特征在于,包括以下步骤:
S1、
使用深度强化学习算法在离线环境中对无人机进行训练;
S2、
基于系统模型和目标跟踪信息,计算出最优的控制输入,根据近视距内的目标信息,选择合适的攻击策略
。2.
根据权利要求1所述的基于
LQR
近视距的无人机空战攻击方法,其特征在于,所述步骤
S1
包括如下步骤:
S11
:使用深度强化学习算法在离线环境中对无人机进行训练,使用
Q

learning
算法学习无人机在不同状态下采取的最佳动作;
S12
:使用函数逼近方法拟合
Q
值函数,定义动作向量
s
b
,其中
s
b

[throttle,pitch,roll]

throttle
表示油门控制,
pitch
表示俯仰角控制,
roll
表示横滚角控制,定义
Q
值函数为
Q(s
a
,s
b
)
,它估计在状态
s
a
下,采取动作
s
b
的长期累积奖励;
S13
:通过自身传感器系统周期性感知我方无人机的态势信息
s
a
,敌方态势信息
s
c
,其中
,s
c
为我方无人机通过摄像头传感器获得的基于视频图像的敌方态势信息,根据
Minimum jerk
算法进行轨迹跟踪,生成追击路径
。3.
根据权利要求1所述的基于
LQR
近视距的无人机空战攻击方法,其特征在于,所述步骤
S2
包括如下步骤:
S21:
将无人机的水平位置和速度为状态量:
X

[p v]
T
,
将加速度设为输入量:
u

a,
则得到离散时间系统方程
:X
d
(k+1)

AX
d
(k)+Ba
d
(k)
,其中,
A

4*4
离散时间状态转移矩阵,
B

2*4
离散时间输入矩阵,
S22:
将步骤
S1
所得到的
Q
值函数作为
LQR
控制器的成本函数,
Q
值函数在强化学习中表示了在状态
s
a
采取动作
s
b
时的长期累积奖励,视为状态的权重
s
a
,将
Q(s
a
,s
b
)
作为
Q
矩阵;
S23:
设定权重矩阵
R(2*2
矩阵
)
,用于表示控制输入的权重,
R
矩阵用于平衡状态误差和控制输入的代价,控制输入的权重根据实际控制需求进行调整;
S24:LQR
的优化目标为:用线性规划方法求解最小代价函数
:P

Q+A
T
PA

A
T
PB(R+B
T
PB)
‑1B
T
PA
得到最优的控制增益矩阵
K

K

R
‑1*B
T
*P

...

【专利技术属性】
技术研发人员:陈茂阳王广旭张家铭袁银龙程赟华亮傅怀梁
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1