一种面向空战一对一博弈对抗的飞行器控制方法及装置制造方法及图纸

技术编号：38754491 阅读：10 留言：0更新日期：2023-09-10 09:39

本发明专利技术提供一种面向空战一对一博弈对抗的飞行器控制方法及装置，该方法包括：获取第一飞行器所在环境对应的外层状态信息，外层状态信息包括第一飞行器对应的相关状态信息及第二飞行器相对于第一飞行器的位置信息；将外层状态信息输入至外层策略网络中，得到外层策略网络输出的外层指令；将第一飞行器对应的内层状态信息输入至内层飞行控制器网络，得到内层飞行控制器网络输出的内层动作，内层状态信息包括相关状态信息及外层指令中的目标控制信号；根据外层指令及多个内层动作，控制第一飞行器对抗第二飞行器。该方法使得第一飞行器具有较高的自主智能决策能力，能够对第二飞行器进行有效且准确地对抗。器进行有效且准确地对抗。器进行有效且准确地对抗。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向空战一对一博弈对抗的飞行器控制方法及装置

[0001]本专利技术涉及人工智能
，尤其涉及一种面向空战一对一博弈对抗的飞行器控制方法及装置。

技术介绍

[0002]空战对抗是现代作战中夺取制空权的主要作战样式，对掌控空中态势发展，达成战术意图具有重要意义。近年来，空战智能体(例如：飞行器)技术虽得到快速发展，但由于军事装备的无人化程度越来越高，导致现有的空战智能体还远无法达到空战对抗的性能要求。此外，空战战术决策是空战过程中的关键核心，又由于空战智能体自主决策能力的不足，对于复杂的空中态势认知能力欠缺，使得该空战智能体在空战对抗中往往只能落入下风，难以达成战术目的。
[0003]现有的一对一空战对抗方法，整个控制过程较为单一，易导致我方飞行器无法进行自主地智能决策，使得我方飞行器的对抗性能较低。

技术实现思路

[0004]本专利技术提供一种面向空战一对一博弈对抗的飞行器控制方法及装置，利用外层策略网络和内层飞行控制器网络，可分别得到较为准确的外层指令和内层动作，然后，基于该外层指令和多个内层动作，可控制第一飞行器对第二飞行器进行有效且准确地对抗，使得该第一飞行器具有较高的自主智能决策能力。
[0005]本专利技术提供一种面向空战一对一博弈对抗的飞行器控制方法，包括：
[0006]获取第一飞行器所在环境对应的外层状态信息，该外层状态信息包括该第一飞行器对应的相关状态信息及第二飞行器相对于该第一飞行器的位置信息；
[0007]将该外层状态信息输入至外层策略网络中...

【技术保护点】

【技术特征摘要】
1.一种面向空战一对一博弈对抗的飞行器控制方法，其特征在于，包括：获取第一飞行器所在环境对应的外层状态信息，所述外层状态信息包括所述第一飞行器对应的相关状态信息及第二飞行器相对于所述第一飞行器的位置信息；将所述外层状态信息输入至外层策略网络中，得到所述外层策略网络输出的外层指令，所述外层策略网络是基于样本外层状态信息进行外层深度强化学习训练得到的；将所述第一飞行器对应的内层状态信息输入至内层飞行控制器网络，得到所述内层飞行控制器网络输出的内层动作，所述内层状态信息包括所述相关状态信息及所述外层指令中的目标控制信号，所述内层飞行控制器网络是基于样本内层状态信息进行内层深度强化学习训练得到的；根据所述外层指令及多个所述内层动作，控制所述第一飞行器对抗所述第二飞行器。2.根据权利要求1所述的方法，其特征在于，所述内层飞行控制器网络是基于以下步骤得到的：获取飞行器样本对应的样本外层状态信息及随机外层指令；基于所述样本外层状态信息及所述随机外层指令，根据待训练内层飞行控制器网络，确定所述飞行器样本对应的第一转移历史数据；根据多个所述第一转移历史数据，结合内层评价器网络，得到所述内层飞行控制器网络；其中，所述第一转移历史数据包括根据所述待训练内层飞行控制器网络计算得到的历史内层状态、历史内层动作及历史内层奖赏信号。3.根据权利要求2所述的方法，其特征在于，所述根据多个所述第一转移历史数据，结合内层评价器网络，得到所述内层飞行控制器网络，包括：利用所述内层评价器网络，计算得到所述飞行器样本对应的内层预估价值；根据多个所述第一转移历史数据及所述内层预估价值，对所述待训练内层飞行控制器网络及所述内层评价器网络进行联合训练，得到所述内层飞行控制器网络。4.根据权利要求3所述的方法，其特征在于，所述根据多个所述第一转移历史数据及所述内层预估价值，对所述待训练内层飞行控制器网络及所述内层评价器网络进行联合训练，得到所述内层飞行控制器网络，包括：获取多个所述第一转移历史数据中各所述第一转移历史数据对应的历史内层奖赏信号；确定多个所述历史内层奖赏信号对应的平均内层奖赏信号；根据所述平均内层奖赏信号及所述内层预估价值，对所述待训练内层飞行控制器网络及所述内层评价器网络进行联合训练，得到所述内层飞行控制器网络。5.根据权利要求1所述的方法，其特征在于，所述外层策略网络是基于以下步骤得到的：获取飞行器样本对应的样本内层状态信息及随机外层指令；基于所述样本内层状态信息及所...

【专利技术属性】
技术研发人员：朱圆恒，柴嘉骏，赵冬斌，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人