一种面向空战一对一博弈对抗的飞行器控制方法及装置制造方法及图纸

技术编号:38754491 阅读:10 留言:0更新日期:2023-09-10 09:39
本发明专利技术提供一种面向空战一对一博弈对抗的飞行器控制方法及装置,该方法包括:获取第一飞行器所在环境对应的外层状态信息,外层状态信息包括第一飞行器对应的相关状态信息及第二飞行器相对于第一飞行器的位置信息;将外层状态信息输入至外层策略网络中,得到外层策略网络输出的外层指令;将第一飞行器对应的内层状态信息输入至内层飞行控制器网络,得到内层飞行控制器网络输出的内层动作,内层状态信息包括相关状态信息及外层指令中的目标控制信号;根据外层指令及多个内层动作,控制第一飞行器对抗第二飞行器。该方法使得第一飞行器具有较高的自主智能决策能力,能够对第二飞行器进行有效且准确地对抗。器进行有效且准确地对抗。器进行有效且准确地对抗。

【技术实现步骤摘要】
一种面向空战一对一博弈对抗的飞行器控制方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种面向空战一对一博弈对抗的飞行器控制方法及装置。

技术介绍

[0002]空战对抗是现代作战中夺取制空权的主要作战样式,对掌控空中态势发展,达成战术意图具有重要意义。近年来,空战智能体(例如:飞行器)技术虽得到快速发展,但由于军事装备的无人化程度越来越高,导致现有的空战智能体还远无法达到空战对抗的性能要求。此外,空战战术决策是空战过程中的关键核心,又由于空战智能体自主决策能力的不足,对于复杂的空中态势认知能力欠缺,使得该空战智能体在空战对抗中往往只能落入下风,难以达成战术目的。
[0003]现有的一对一空战对抗方法,整个控制过程较为单一,易导致我方飞行器无法进行自主地智能决策,使得我方飞行器的对抗性能较低。

技术实现思路

[0004]本专利技术提供一种面向空战一对一博弈对抗的飞行器控制方法及装置,利用外层策略网络和内层飞行控制器网络,可分别得到较为准确的外层指令和内层动作,然后,基于该外层指令和多个内层动作,可控制第一飞行器对第二飞行器进行有效且准确地对抗,使得该第一飞行器具有较高的自主智能决策能力。
[0005]本专利技术提供一种面向空战一对一博弈对抗的飞行器控制方法,包括:
[0006]获取第一飞行器所在环境对应的外层状态信息,该外层状态信息包括该第一飞行器对应的相关状态信息及第二飞行器相对于该第一飞行器的位置信息;
[0007]将该外层状态信息输入至外层策略网络中,得到该外层策略网络输出的外层指令,该外层策略网络是基于样本外层状态信息进行外层深度强化学习训练得到的;
[0008]将该第一飞行器对应的内层状态信息输入至内层飞行控制器网络,得到该内层飞行控制器网络输出的内层动作,该内层状态信息包括该相关状态信息及该外层指令中的目标控制信号,该内层飞行控制器网络是基于样本内层状态信息进行内层深度强化学习训练得到的;
[0009]根据该外层指令及多个该内层动作,控制该第一飞行器对抗该第二飞行器。
[0010]根据本专利技术提供的一种面向空战一对一博弈对抗的飞行器控制方法,该内层飞行控制器网络是基于以下步骤得到的:获取飞行器样本对应的样本外层状态信息及随机外层指令;基于该样本外层状态信息及该随机外层指令,根据待训练内层飞行控制器网络,确定该飞行器样本对应的第一转移历史数据;根据多个该第一转移历史数据,结合内层评价器网络,得到该内层飞行控制器网络;其中,该第一转移历史数据包括根据该待训练内层飞行控制器网络计算得到的历史内层状态、历史内层动作及历史内层奖赏信号。
[0011]根据本专利技术提供的一种面向空战一对一博弈对抗的飞行器控制方法,根据多个该
第一转移历史数据,结合内层评价器网络,得到该内层飞行控制器网络,包括:利用该内层评价器网络,计算得到该飞行器样本对应的内层预估价值;根据多个该第一转移历史数据及该内层预估价值,对该待训练内层飞行控制器网络及该内层评价器网络进行联合训练,得到该内层飞行控制器网络。
[0012]根据本专利技术提供的一种面向空战一对一博弈对抗的飞行器控制方法,该根据多个该第一转移历史数据及该内层预估价值,对该待训练内层飞行控制器网络及该内层评价器网络进行联合训练,得到该内层飞行控制器网络,包括:获取多个该第一转移历史数据中各该第一转移历史数据对应的历史内层奖赏信号;确定多个该历史内层奖赏信号对应的平均内层奖赏信号;根据该平均内层奖赏信号及该内层预估价值,对该待训练内层飞行控制器网络及该内层评价器网络进行联合训练,得到该内层飞行控制器网络。
[0013]根据本专利技术提供的一种面向空战一对一博弈对抗的飞行器控制方法,该外层策略网络是基于以下步骤得到的:获取飞行器样本对应的样本内层状态信息及随机外层指令;基于该样本内层状态信息及该随机外层指令,根据该内层飞行控制器网络、待训练外层策略网络及历史策略池,确定该飞行器样本对应的第二转移历史数据;根据多个该第二转移历史数据,结合外层评价器网络,得到该外层策略网络;其中,该第二转移历史数据包括根据该待训练外层策略网络计算得到的历史外层状态、历史外层动作及历史外层奖赏信号。
[0014]根据本专利技术提供的一种面向空战一对一博弈对抗的飞行器控制方法,该根据多个该第二转移历史数据,结合外层评价器网络,得到该外层策略网络,包括:利用该外层评价器网络,计算得到该飞行器样本对应的外层预估价值;根据多个该第二转移历史数据及该外层预估价值,对该待训练外层策略网络及该外层评价器网络进行联合训练,得到该外层策略网络。
[0015]根据本专利技术提供的一种面向空战一对一博弈对抗的飞行器控制方法,该随机外层指令包括随机油门指令及随机目标信号,该随机目标信号包括目标信号稳定角及目标信号变化速率;该油门指令位于[0,1];该目标信号稳定角位于该飞行器样本对应的俯仰角和滚转角的取值区间内;该目标信号变化速率位于该飞行器样本对应的俯仰角速率和滚转角速率的取值区间内。
[0016]本专利技术还提供一种面向空战一对一博弈对抗的飞行器控制装置,包括:
[0017]获取模块,用于获取第一飞行器所在环境对应的外层状态信息,该外层状态信息包括该第一飞行器对应的相关状态信息及第二飞行器相对于该第一飞行器的位置信息;
[0018]处理模块,用于将该外层状态信息输入至外层策略网络中,得到该外层策略网络输出的外层指令,该外层策略网络是基于样本外层状态信息进行外层深度强化学习训练得到的;将该第一飞行器对应的内层状态信息输入至内层飞行控制器网络,得到该内层飞行控制器网络输出的内层动作,该内层状态信息包括该相关状态信息及该外层指令中的目标控制信号,该内层飞行控制器网络是基于样本内层状态信息进行内层深度强化学习训练得到的;根据该外层指令及多个该内层动作,控制该第一飞行器对抗该第二飞行器。
[0019]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述面向空战一对一博弈对抗的飞行器控制方法。
[0020]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算
机程序被处理器执行时实现如上述任一种所述面向空战一对一博弈对抗的飞行器控制方法。
[0021]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述面向空战一对一博弈对抗的飞行器控制方法。
[0022]本专利技术提供的面向空战一对一博弈对抗的飞行器控制方法及装置,通过获取第一飞行器所在环境对应的外层状态信息,所述外层状态信息包括所述第一飞行器对应的相关状态信息及第二飞行器相对于所述第一飞行器的位置信息;将所述外层状态信息输入至外层策略网络中,得到所述外层策略网络输出的外层指令,所述外层策略网络是基于样本外层状态信息进行外层深度强化学习训练得到的;将所述第一飞行器对应的内层状态信息输入至内层飞行控制器网络,得到所述内层飞行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向空战一对一博弈对抗的飞行器控制方法,其特征在于,包括:获取第一飞行器所在环境对应的外层状态信息,所述外层状态信息包括所述第一飞行器对应的相关状态信息及第二飞行器相对于所述第一飞行器的位置信息;将所述外层状态信息输入至外层策略网络中,得到所述外层策略网络输出的外层指令,所述外层策略网络是基于样本外层状态信息进行外层深度强化学习训练得到的;将所述第一飞行器对应的内层状态信息输入至内层飞行控制器网络,得到所述内层飞行控制器网络输出的内层动作,所述内层状态信息包括所述相关状态信息及所述外层指令中的目标控制信号,所述内层飞行控制器网络是基于样本内层状态信息进行内层深度强化学习训练得到的;根据所述外层指令及多个所述内层动作,控制所述第一飞行器对抗所述第二飞行器。2.根据权利要求1所述的方法,其特征在于,所述内层飞行控制器网络是基于以下步骤得到的:获取飞行器样本对应的样本外层状态信息及随机外层指令;基于所述样本外层状态信息及所述随机外层指令,根据待训练内层飞行控制器网络,确定所述飞行器样本对应的第一转移历史数据;根据多个所述第一转移历史数据,结合内层评价器网络,得到所述内层飞行控制器网络;其中,所述第一转移历史数据包括根据所述待训练内层飞行控制器网络计算得到的历史内层状态、历史内层动作及历史内层奖赏信号。3.根据权利要求2所述的方法,其特征在于,所述根据多个所述第一转移历史数据,结合内层评价器网络,得到所述内层飞行控制器网络,包括:利用所述内层评价器网络,计算得到所述飞行器样本对应的内层预估价值;根据多个所述第一转移历史数据及所述内层预估价值,对所述待训练内层飞行控制器网络及所述内层评价器网络进行联合训练,得到所述内层飞行控制器网络。4.根据权利要求3所述的方法,其特征在于,所述根据多个所述第一转移历史数据及所述内层预估价值,对所述待训练内层飞行控制器网络及所述内层评价器网络进行联合训练,得到所述内层飞行控制器网络,包括:获取多个所述第一转移历史数据中各所述第一转移历史数据对应的历史内层奖赏信号;确定多个所述历史内层奖赏信号对应的平均内层奖赏信号;根据所述平均内层奖赏信号及所述内层预估价值,对所述待训练内层飞行控制器网络及所述内层评价器网络进行联合训练,得到所述内层飞行控制器网络。5.根据权利要求1所述的方法,其特征在于,所述外层策略网络是基于以下步骤得到的:获取飞行器样本对应的样本内层状态信息及随机外层指令;基于所述样本内层状态信息及所...

【专利技术属性】
技术研发人员:朱圆恒柴嘉骏赵冬斌
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1