当前位置: 首页 > 专利查询>河南大学专利>正文

一种基于SAC和LGVF的航天器追捕任务组合优化控制方法技术

技术编号:37569799 阅读:9 留言:0更新日期:2023-05-15 07:48
本发明专利技术提供一种基于SAC和LGVF的航天器追捕任务组合优化控制方法,首先利用层次控制方法将追逃场景中任务划分为不同阶段,建立航天器追捕任务的分层简化模型;其次,提出改进的深度强化学习柔性演员评论家(SAC)算法建立自主运动规划控制架构,为追捕航天器提供了处理动态不确定状态的能力;最后,在改进的SAC算法框架下引入了李亚普诺夫引导矢量场方法(LGVF)形成组合控制方法,压缩解空间大小以优化在庞大解空间中的求解过程。本方法能够使追捕航天器在外部信息部分可观测且不可预知的场景中自主完成航天器追捕任务,既提供实时自主控制能力,又提升了任务成功率。又提升了任务成功率。又提升了任务成功率。

【技术实现步骤摘要】
一种基于SAC和LGVF的航天器追捕任务组合优化控制方法


[0001]本专利技术涉及航天器自主控制
,尤其是涉及一种基于SAC和LGVF的航天器追捕任务组合优化控制方法。

技术介绍

[0002]航天器空中对抗问题是当今空战领域的研究热点,随着性能的提升,航天器的作用不单是战场侦查,更多的是执行追捕任务,完成了从侦察平台到作战平台的转换。
[0003]国外早在上世纪70年代就已经展开了航天器追捕任务技术研究,其核心目的在于控制航天器在规避威胁保证自身安全的情况下对目标进行追踪任务。以往求解组合优化问题的传统方法包括精确算法、近似算法和启发式算法,其中许多算法已经被证明是可靠稳定的。传统方法较少利用问题之间的共同特征来求得一个普适性解,需要建立一个新的求解器来解决一个相似问题的不同实例,因此该类方法无法应用于场景时刻发生变化的动态组合优化问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于SAC和LGVF的航天器追捕任务组合优化控制方法,解决了动态未知环境中航天器追捕任务的两大难题,一是外部信息的不可预测性,如目标的逃逸方式、威胁位置及火力范围等信息;二是外部信息的部分可观测性,环境中只有部分状态能通过航天器一系列传感器获得。
[0005]本专利技术采用的技术方案为:
[0006]一种基于SAC和LGVF的航天器追捕任务组合优化控制方法,具体包括以下几个步骤:
[0007]步骤1:建立航天器追捕任务场景模型,其具体过程为:
[0008]本专利技术涉及的动态未知环境中的航天器追捕任务,描述为追捕航天器需要飞跃场景中存在的威胁并对动态逃逸航天器追捕的过程,对此问题建立优化函数模型如公式(1)所示:
[0009]mint
c
=G[f(P),f(E),f(T
i
)]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0010]目标函数t
c
是指追捕航天器P以最短的时间捕获逃逸航天器E为目标,G[f(P),f(E),f(T
i
)]是指对场景整体量测信息的融合,f(P),f(E),f(T
i
)分别是指追捕航天器、逃逸航天器以及各个威胁T的状态信息,T
i
代表第i个威胁;
[0011]对该场景建立追捕航天器、逃逸航天器的动力学微分模型如公式(2)所示:
[0012][0013]其中,x
i
,y
i
为航天器当前位置信息,分别是x
i
,y
i
的微分量,即速度在两个向
量方向上的分量;v
i
表示航天器的速度,a
i
表示航天器的加速度,是速度v
i
的微分即速度变化率,等于加速度a
i
;ψ
i
表示航天器的航向角,ω
i
表示航天器的角速度,是航向角ψ
i
的微分量即航向角变化率,等于角速度ω
i
。追捕航天器的角速度值取决于强化学习算法模型输出;
[0014]航天器及威胁的状态及初始状态为公式(3)所示:
[0015][0016]其中,x
i0
,y
i0
代表航天器或威胁的初始位置,Δx
i
,Δy
i
代表航天器或威胁位置的变化量,x
i
(t0),y
i
(t0)代表航天器或威胁由初始位置x
i0
,y
i0
经过Δx
i
,Δy
i
的位移变化而生成的新位置;v
i0
代表航天器或威胁的初始速度,v
i
(t0)代表任一t0时刻航天器或威胁的速度;ψ
i0
代表航天器或威胁的航向角的初始角度,Δω
i
代表航天器或威胁航向角的变化量,ψ
i
(t0)代表航天器或威胁的航向角由初始角度ψ
i0
经过Δω
i
的角度变化而生成的新航向角;R
i0
代表航天器或威胁初始化的火力作用范围,R
i
(t0)代表航天器或威胁在任一t0时刻的火力作用范围,与初始火力作用范围R
i0
保持不变;各个威胁被随机化分布在场景中,以便模拟场景复杂度;
[0017]设定该场景任务成功的条件为追捕航天器P与逃逸航天器E的距离小于追捕航天器的追捕范围内,如公式(4)所示:
[0018]d
PE
≤R
P
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0019]其中,d
PE
是追捕航天器P与逃逸航天器E的距离,R
P
是指追捕航天器P的追捕作用范围;
[0020]设定该场景任务失败的条件为追捕航天器P与威胁T的武器范围发生重叠,即追捕航天器与威胁之间的距离小于安全距离,如公式(5)所示:
[0021][0022]其中,是指追捕航天器与各威胁之间的距离;l为指追捕航天器与威胁之间的安全距离,定义为追捕航天器与威胁作用范围之和,即其中,根据公式(3)所述,代表第i个威胁T
i
的威胁作用范围;
[0023]步骤2:根据步骤1建立的航天器追捕任务场景模型,分别设计追捕航天器和逃逸航天器的状态空间模型、动作空间模型以及状态转移模型;
[0024]步骤3:根据步骤1已建立的航天器追捕任务场景模型,通过层次控制方法对航天器追捕任务建立分层简化模型,使航天器追捕任务简化为多层级子任务;
[0025]步骤4:根据已建立航天器追捕任务的分层简化模型,提出改进的深度强化学习柔性演员评论家算法建立自主运动规划控制架构,为追捕航天器提供处理动态不确定状态的能力,满足当前需要实时优化的动态追捕场景;
[0026]步骤5:根据已建立航天器追捕任务的分层简化模型,在改进的SAC算法的自主运
动规划控制架构下,通过引入李亚普诺夫引导矢量场方法形成组合方法,优化SAC算法学习过程,形成组合优化方法;
[0027]步骤6:将步骤5所述组合优化方法应用在步骤4已建立的航天器追捕任务分层简化模型上,训练追捕航天器的自主运动规划模型;
[0028]步骤7:将步骤6中所训练追捕航天器的自主运动规划模型加载到信息部分可观测且不可预知的在线追捕任务仿真场景中测试,通过追捕航天器执行追捕任务的测试效果反馈完善所述的组合优化方法。
[0029]所述步骤2具体包括如下步骤:
[0030]步骤2.1:追捕航天器、逃逸航天器和威胁的状态空间模型设计,具体的:
[0031]设定追捕航天器、逃逸航天器和威胁机载GPS设备和陀螺仪,可以获得自身的位置信息和速度信息;追捕航天器机载火控雷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于SAC和LGVF的航天器追捕任务组合优化控制方法,其特征在于,具体包括以下几个步骤:步骤1:建立航天器追捕任务场景模型,其具体过程为:本发明涉及的动态未知环境中的航天器追捕任务,描述为追捕航天器需要飞跃场景中存在的威胁并对动态逃逸航天器追捕的过程,对此问题建立优化函数模型如公式(1)所示:min t
c
=G[f(P),f(E),f(T
i
)]
ꢀꢀꢀꢀ
(1)目标函数t
c
是指追捕航天器P以最短的时间捕获逃逸航天器E为目标,G[f(P),f(E),f(T
i
)]是指对场景整体量测信息的融合,f(P),f(E),f(T
i
)分别是指追捕航天器、逃逸航天器以及各个威胁T的状态信息,T
i
代表第i个威胁;对该场景建立追捕航天器、逃逸航天器的动力学微分模型如公式(2)所示:其中,x
i
,y
i
为航天器当前位置信息,分别是x
i
,y
i
的微分量,即速度在两个向量方向上的分量;v
i
表示航天器的速度,a
i
表示航天器的加速度,是速度v
i
的微分即速度变化率,等于加速度a
i
;ψ
i
表示航天器的航向角,ω
i
表示航天器的角速度,是航向角ψ
i
的微分量即航向角变化率,等于角速度ω
i
。追捕航天器的角速度值取决于强化学习算法模型输出;航天器及威胁的状态及初始状态为公式(3)所示:其中,x
i0
,y
i0
代表航天器或威胁的初始位置,Δx
i
,Δy
i
代表航天器或威胁位置的变化量,x
i
(t0),y
i
(t0)代表航天器或威胁由初始位置x
i0
,y
i0
经过Δx
i
,Δy
i
的位移变化而生成的新位置;v
i0
代表航天器或威胁的初始速度,v
i
(t0)代表任一t0时刻航天器或威胁的速度;ψ
i0
代表航天器或威胁的航向角的初始角度,Δω
i
代表航天器或威胁航向角的变化量,ψ
i
(t0)代表航天器或威胁的航向角由初始角度ψ
i0
经过Δω
i
的角度变化而生成的新航向角;R
i0
代表航天器或威胁初始化的火力作用范围,R
i
(t0)代表航天器或威胁在任一t0时刻的火力作用范围,与初始火力作用范围R
i0
保持不变;各个威胁被随机化分布在场景中,以便模拟场景复杂度;设定该场景任务成功的条件为追捕航天器P与逃逸航天器E的距离小于追捕航天器的追捕范围内,如公式(4)所示:d
PE
≤R
P
ꢀꢀꢀꢀ
(4)其中,d
PE
是追捕航天器P与逃逸航天器E的距离,R
P
是指追捕航天器P的追捕作用范围;设定该场景任务失败的条件为追捕航天器P与威胁T的武器范围发生重叠,即追捕航天
器与威胁之间的距离小于安全距离,如公式(5)所示:其中,是指追捕航天器与各威胁之间的距离;l为指追捕航天器与威胁之间的安全距离,定义为追捕航天器与威胁作用范围之和,即其中,根据公式(3)所述,代表第i个威胁T
i
的威胁作用范围;步骤2:根据步骤1建立的航天器追捕任务场景模型,分别设计追捕航天器和逃逸航天器的状态空间模型、动作空间模型以及状态转移模型;步骤3:根据步骤1已建立的航天器追捕任务场景模型,通过层次控制方法对航天器追捕任务建立分层简化模型,使航天器追捕任务简化为多层级子任务;步骤4:根据已建立航天器追捕任务的分层简化模型,提出改进的深度强化学习柔性演员评论家算法建立自主运动规划控制架构,为追捕航天器提供处理动态不确定状态的能力,满足当前需要实时优化的动态追捕场景;步骤5:根据已建立航天器追捕任务的分层简化模型,在改进的SAC算法的自主运动规划控制架构下,通过引入李亚普诺夫引导矢量场方法形成组合方法,优化SAC算法学习过程,形成组合优化方法;步骤6:将步骤5所述组合优化方法应用在步骤4已建立的航天器追捕任务分层简化模型上,训练追捕航天器的自主运动规划模型;步骤7:将步骤6中所训练追捕航天器的自主运动规划模型加载到信息部分可观测且不可预知的在线追捕任务仿真场景中测试,通过追捕航天器执行追捕任务的测试效果反馈完善所述的组合优化方法。2.根据所述的一种基于SAC和LGVF的航天器追捕任务组合优化控制方法,其特征在于,所述步骤2具体包括如下步骤:步骤2.1:追捕航天器、逃逸航天器和威胁的状态空间模型设计,具体的:设定追捕航天器、逃逸航天器和威胁机载GPS设备和陀螺仪,可以获得自身的位置信息和速度信息;追捕航天器机载火控雷达荷载设备,能够获取目标的位置信息和速度信息,如公式(6)所示:f(i)=[x
i
,y
i
,v
i

i
]i=P,E,T
ꢀꢀꢀꢀ
(6)本方法使用相对信息关系建立状态空间模型State,压缩了量测空间大小,减轻神经网络的输入处理压力以提升算法性能,使算法聚焦于对求解方案的学习,状态空间模型表达式设计如公式(7)所示:其中,d
PE
指追捕航天器和逃逸航天器间的距离,指追捕航天器和各威胁间的距离,α
PE
是追捕航天器P和逃逸航天器E的速度方向和目标视线LOS的夹角,是追捕航天器P和各个威胁T
i
的速度方向和目标视线LOS的夹角,LOS是指由追捕航天器位置指向目标的向量方向;步骤2.2:追捕航天器和逃逸航天器的动作空间模型的设计,具体的:追捕航天器的控制输入设计为角速度和加速度,假定航天器的动力学方程将航天器设
置为匀速运动,动作空间Action如公式(8)所示:Action=[ω]
ꢀꢀꢀꢀ
(8)其中,设定航天器最大角速度小于25.5rad/sec,即ω∈[

25.5,25.5],取俯视图逆时针方向为正方向;步骤2.3:追捕航天器和逃逸航天器的状态转移模型的设计,具体的:航天器运动状态转移方程如公式(9)所示:其中,i指追捕航天器、逃逸航天器;航天器在当前状态s
t
采取行为A
t
与场景交互获取状态转移的变化量,当前状态s
t
与变化量相加从而得到下一状态s
t+1
。3.根据权利要求书1所述的一种基于SAC和LGVF的航天器追捕任务组合优化控制方法,其特征在于,所述的步骤3根据步骤1已建立的航天器追捕任务场景模型,通过层次控制方法对航天器追捕任务建立分层简化模型,使航天器追捕任务简化为多层级子任务,具体为:首先,第一阶段任务是指当追捕航...

【专利技术属性】
技术研发人员:周林程聪聪冷俊芳张梦丁鑫龙魏倩彭青蓝姚鸿泰晏加元邱倩
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1