一种面向微分博弈策略的智能控制律反演方法技术

技术编号：40918347 阅读：2 留言：0更新日期：2024-04-18 14:44

本发明专利技术公开了一种面向微分博弈策略的智能控制律反演方法，属于航天器博弈技术领域。包括：基于微分博弈策略模型和无限时间微分对策建立无限时域微分博弈策略模型；基于所述无限时域微分博弈策略模型求解纳什均衡策略，得到航天器在博弈中的最优策略模型；确定所述最优策略模型的输入和输出，构造用于神经网络的数据集并选取合适的神经网络模型；使用所述数据集对所述神经网络模型进行训练，得到初始神经网络模型；调整所述初始神经网络模型的参数和超参数，得到最优的智能控制律反演模型。本方法通过反演未知权重矩阵和控制律参数，揭示了对手的控制策略，为有效应对连续推力追逃提供了理论支持。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于航天器博弈，涉及一种面向微分博弈策略的智能控制律反演方法。

技术介绍

1、在实际的博弈场景中，因为无法直接获得对方的真实目的，不知道其机动能力，也难以获得对方的准确相对状态信息，对非合作目标做出决策时往往面临信息不完整的困境。研究高效智能的策略反演方法用以解决非合作目标博弈策略识别等问题至关重要。其中，对非合作目标进行机动检测是进行控制策略反演的前提和重要保障，为后续策略反演进一步提供数据支撑。li等人在文章《an escape strategy in orbital pursuit-evasiongames with incomplete information》(不全信息轨道追逃博弈下的逃逸策略)中利用无迹卡尔曼在线信息估计方法和最佳响应最优控制，设计了一种有效的逃逸策略以应对不完全信息下的轨道追逃博弈。wang等在文章《incomplete information pursuit-evasiongame control for a space non-cooperative target》(面向非合作目标的不完全信息追逃博弈控制)中针对不完全信息条件下空间非合作目标追逃对策的最优控制问题，提出了一种将未知目标机动作为有色噪声处理的方法，将对策退化为强跟踪问题。祝海等人在文章《基于微分对策的航天器轨道追逃最优控制策略》中将无迹卡尔曼滤波的方法引入到航天器追逃中，估计支付函数中的权值参数，实时计算出最优的追踪控制律。然而上述方法均受限于传统算法而耗时长，在实际运用中不够高效。

技术实现思路

1、本专利技术的目的在于解决现有技术中对目标控制策略进行识别和反演时采用传统算法耗时长的技术问题，提供一种面向微分博弈策略的智能控制律反演方法。

2、为了达到上述目的，本专利技术采用以下技术方案予以实现：

3、第一方面，本专利技术提供了一种面向微分博弈策略的智能控制律反演方法，包括：

4、基于微分博弈策略模型和无限时间微分对策建立无限时域微分博弈策略模型；

5、基于所述无限时域微分博弈策略模型求解纳什均衡策略，得到航天器在博弈中的最优策略模型；

6、确定所述最优策略模型的输入和输出，构造用于神经网络的数据集并选取合适的神经网络模型；

7、使用所述数据集对所述神经网络模型进行训练，得到初始神经网络模型；

8、调整所述初始神经网络模型的参数和超参数，得到最优的智能控制律反演模型。

9、本专利技术进一步的改进在于：

10、所述基于微分博弈策略模型和无限时间微分对策建立无限时域微分博弈策略模型具体包括以下步骤：

11、假设追击航天器采用无限时间微分对策，其代价函数为：

12、

13、式中，q为半正定矩阵，是衡量博弈过程中两航天器相对状态之差的权重矩阵；rp和re是正定矩阵，分别表征了追击航天器和逃逸航天器能量消耗在支付函数中所占权重；x(t)表示t时刻的两航天器相对状态之差；up(t)是t时刻追击者的控制量；ue(t)是t时刻逃逸者的控制量；

14、为了得到所述无限时间微分对策的鞍点解，构造代数黎卡提方程：

15、atp+pa+q-p(bprp-1bpt-bere-1bet)p＝0 (2)

16、式中，黎卡提矩阵p为定常矩阵；a是基于cw线性方程的系统状态空间方程的状态矩阵；bp和be分别是追击航天器和逃逸航天器基于cw线性方程的系统状态空间方程的输入矩阵。

17、所述基于所述无限时域微分博弈策略模型求解纳什均衡策略，得到航天器在博弈中的最优策略模型具体包括以下步骤：

18、通过求解所述黎卡提方程，进一步得到追逃双方航天器的最优策略模型：

19、

20、所述最优策略模型中的反馈增益为定常矩阵，当追逃双方航天器在较长时间进行博弈时，采用本最优策略模型。

21、所述确定所述最优策略模型的输入和输出具体包括以下步骤：

22、所述最优策略模型的输入为追击航天器在进行连续控制机动下的轨道信息；所述最优策略模型的输出为追击航天器所选取的博弈控制矩阵。

23、所述构造用于神经网络的数据集具体包括以下步骤：

24、固定权值矩阵q，选取不同的控制矩阵re，生成追击航天器的若干个控制策略；

25、针对不同的所述控制策略进行追击航天器的轨迹推演，并选取追击航天器在固定时间间隔上的轨道位置速度状态向量组成的状态序列；

26、随机设置追击航天器的初始位置，得到若干组状态序列并进行数据标定，同时对状态序列进行预处理，完成不同的控制策略的神经网络模型的数据集构造。

27、所述选取合适的神经网络模型包括：

28、选取适用于所述状态序列处理的长短时记忆网络的深度学习结构；所述长短时记忆网络包括输入层、lstm层、全连接层和输出层。

29、所述使用所述数据集对所述神经网络模型进行训练，得到初始神经网络模型具体包括：

30、将所述数据集分为训练集和测试集，使用训练集对所述长短时记忆网络进行训练，通过反向传播和梯度下降来调整网络权重，以最小化损失函数，得到初始神经网络模型。

31、所述调整网络权重包括：

32、给定n个训练样本其中，(n)表示第n个样本，x为非合作目标的位置速度信息，p为实际类型概率分布，为类型的预测概率分布，交叉熵的值越小，说明预测概率分布越接近实际类型概率分布；softmax分类使用交叉熵作为损失函数学习最优的参数矩阵ω，则损失函数为：

33、

34、损失函数r(ω)关于参数矩阵ω的梯度为：

35、

36、所述使用训练集对神经网络模型进行训练包括：

37、梯度下降算法用于更迭参数ω，不断沿着梯度的反方向让参数ω向损失更小的方向更新；对于函数r(ω)，其在参数ω处的梯度为学习率σ用于定义每次更新的幅度，通过计算ωn处的梯度以及设定学习率得到更新公式：

38、

39、与现有技术相比，本专利技术具有以下有益效果：

40、本专利技术公开了一种面向微分博弈策略的智能控制律反演方法，提出了一种基于神经网络模型的智能学习结构的线性定常控制矩阵反演方法。通过构建适用于序列数据处理的神经网络深度学习结构，旨在更灵活地处理线性定常反馈控制的复杂性，以微分对策下的线性反馈控制律为对象，通过反演未知权重矩阵和控制律参数，揭示了对手的控制策略，为有效应对连续推力追逃提供了理论支持。

本文档来自技高网...

【技术保护点】

1.一种面向微分博弈策略的智能控制律反演方法，其特征在于，包括：

2.根据权利要求1所述的面向微分博弈策略的智能控制律反演方法，其特征在于，所述基于微分博弈策略模型和无限时间微分对策建立无限时域微分博弈策略模型具体包括以下步骤：

3.根据权利要求2所述的面向微分博弈策略的智能控制律反演方法，其特征在于，所述基于所述无限时域微分博弈策略模型求解纳什均衡策略，得到航天器在博弈中的最优策略模型具体包括以下步骤：

4.根据权利要求1所述的面向微分博弈策略的智能控制律反演方法，其特征在于，所述确定所述最优策略模型的输入和输出具体包括以下步骤：

5.根据权利要求1所述的面向微分博弈策略的智能控制律反演方法，其特征在于，所述构造用于神经网络的数据集具体包括以下步骤：

6.根据权利要求5所述的面向微分博弈策略的智能控制律反演方法，其特征在于，所述选取合适的神经网络模型包括：

7.根据权利要求6所述的面向微分博弈策略的智能控制律反演方法，其特征在于，所述使用所述数据集对所述神经网络模型进行训练，得到初始神经网络模型具体包括：</p>

8.根据权利要求7所述的面向微分博弈策略的智能控制律反演方法，其特征在于，所述调整网络权重包括：

9.根据权利要求8所述的面向微分博弈策略的智能控制律反演方法，其特征在于，所述使用训练集对神经网络模型进行训练包括：

...

【技术特征摘要】

1.一种面向微分博弈策略的智能控制律反演方法，其特征在于，包括：

4.根据权利要求1所述的面向微分博弈策略的智能控制律反演方法，其特征在于，所述确定所述最优策略模型的输入和输出具体包括以下步骤：

5.根据权利要求1所述的面向...

【专利技术属性】
技术研发人员：党朝辉，侯卓君，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人