一种面向飞行仿真平台的博弈智能算法训练框架制造技术

技术编号:38143086 阅读:9 留言:0更新日期:2023-07-08 09:59
本发明专利技术公开了一种面向空中对抗仿真平台的博弈智能算法训练框架,其特征在于,包括算法训练平台以及飞行仿真平台,其中算法训练平台中布置有智能博弈算法模块、博弈对抗训练仿真控制模块以及博弈对抗数据交互模块;飞行仿真平台中布置有飞行仿真平台控制模块;该框架支持强化学习、遗传优化等多种智能算法针对1V1、多V多等多种任务场景的训练,适用于多种仿真软件,支持Windows系统与Linux系统之间互联互通,满足智能算法并行训练的需求,解决了面向空战仿真平台的博弈类智能算法训练问题。面向空战仿真平台的博弈类智能算法训练问题。面向空战仿真平台的博弈类智能算法训练问题。

【技术实现步骤摘要】
一种面向飞行仿真平台的博弈智能算法训练框架


[0001]本专利技术涉及博弈智能化
,涉及一种面向飞行仿真平台的博弈智能算法训练框架,可以支持强化学习、遗传优化、遗传模糊决策树等智能算法针对空中对抗博弈问题的实时训练。

技术介绍

[0002]随着人工智能技术的发展,未来空中博弈不仅是飞行器性能和操作员飞行技能的对抗,更是飞行器智能化水平的较量。为了夺取博弈中的主动权,各研究团体争相研究具有自主决策或者辅助决策能力的高性能智能体。这不仅是智能化科技浪潮牵引的智能化需求,更是由于复杂的对抗态势和海量的数据远超当前操作员的承受能力这一现状所导致的必然结果。
[0003]面对当前空中对抗态势的特点,具备强大的信息处理能力的人工智能技术被寄予厚望。各种博弈类智能算法被尝试用于空战博弈过程,其中主要以强化学习、遗传优化、博弈论方法等最为突出。但是,同其他的深度学习一样,这一类的智能算法都需要大量的计算资源和数据来支撑,同时由于该类博弈过程无法快速积累样本和反腐重现,只能通过仿真模拟的办法来解决任务样本数据问题。而仿真环境与现实场景的接近程度的高低将直接影响算法结果的有效性和正确性。此外,现在国内的大部分的关于空战博弈问题的研究尚停留在二维空间,原因主要就是无法找到一个合适的仿真环境来支撑自身的算法训练。这是是因为具备高仿真度的空战仿真软件并不提高算法训练接口和框架,无法利用这些仿真软件实现类似魔兽、Dota2等博弈类游戏AI的训练效果。只能通过搭建简易的仿真软件来训练,其训练出来的算法的效果必然大打折扣。目前,类似DCS World这类仿真效果比较好的仿真软件其实已经基本满足了各种空中对抗博弈任务的仿真要求,但是受限于训练的数据接口、任务自动加载等问题,一直无法用于空战智能算法的训练中去。

技术实现思路

[0004]本专利技术的目的是提供一种面向飞行仿真平台的博弈智能算法训练框架,用以解决现有的高仿真度空中对抗仿真平台无法支持深度强化学习等博弈类智能算法训练的问题,使智能算法训练框架在保证仿真环境尽量真实的前提下,满足强化学习等智能算法的训练要求。
[0005]为了实现上述任务,本专利技术采用以下技术方案:
[0006]一种面向空中对抗仿真平台的博弈智能算法训练框架,包括算法训练平台以及飞行仿真平台,其中算法训练平台中布置有智能博弈算法模块、博弈对抗训练仿真控制模块以及博弈对抗数据交互模块;飞行仿真平台中布置有飞行仿真平台控制模块,其中:
[0007]飞行仿真平台控制模块用于根据算法训练需求控制飞行仿真平台进行仿真推演,接收仿真平台控制数据和仿真平台战机控制数据,并在其内部对仿真平台控制数据中的任务编辑指令、任务加载指令和战机控制指令按仿真平台接口规则处理,将处理后的各指令
发给飞行仿真平台,控制飞行仿真平台对博弈对抗任务进行仿真推演;飞行仿真平台将博弈对抗任务的仿真结果数据以及仿真平台运行状态数据发送给算法训练平台中的博弈对抗数据交互模块;
[0008]博弈对抗训练仿真控制模块用于根据博弈智能算法训练需求,生成对应的博弈对抗任务编辑指令和博弈任务重置加载指令,接收智能博弈算法模块的博弈对抗训练仿真控制指令,根据控制指令生成飞行仿真平台控制指令,发送给博弈对抗数据交互模块进行数据交联处理;
[0009]博弈对抗数据交互模块用于处理训练框架中各模块之间的数据交联任务,该模块接收博弈对抗训练仿真控制模块生成的飞行仿真平台控制指令,并将其发送到对应的飞行仿真平台的对应单元,实现博弈智能算法训练过程中对于飞行仿真平台的控制;
[0010]智能博弈算法模块用于集成各种智能博弈对抗训练算法,使用人员在智能博弈算法模块设计编辑智能博弈算法,通过智能博弈算法模块驱动整个算法框架运行。
[0011]进一步地,所述飞行仿真平台控制模块包括以下子单元:
[0012]仿真平台任务编辑单元,用于控制飞行仿真平台根据博弈智能算法需求实现仿真任务编辑,接收任务编辑指令,在飞行仿真平台中完成任务在线编辑,并将任务编辑结果反馈给博弈对抗数据交互模块;
[0013]仿真平台任务加载单元,用于控制飞行仿真平台根据博弈智能算法训练需求加载具备特定任务场景的博弈任务,接收任务加载指令,控制飞行仿真平台完成特定任务加载和仿真启动,并将任务加载状态反馈给博弈对抗数据交互模块;
[0014]仿真平台战机控制单元,用于控制飞行仿真平台根据博弈智能算法训练过程中提供的控制指令在仿真环境中实时进行仿真推演,接收智能算法战机控制指令数据,驱动仿真平台进行博弈任务仿真推演,并将博弈任务仿真结果数据实时反馈给算法训练平台。
[0015]进一步地,所述博弈对抗训练仿真控制模块包括以下子单元:
[0016]博弈对抗任务编辑单元,服务于博弈智能算法训练过程中的任务编辑工作,接收博弈智能算法任务场景更新需求,并在其内部生成对应的任务编辑指令,将处理后的任务编辑指令发送给博弈对抗数据交互模块;
[0017]单智能体任务加载控制单元,服务于智能博弈算法训练过程中的单智能体的智能训练过程,接收单机任务初始化指令、仿真加速和减速指令,并在其内部生成对应飞行仿真平台的单机控制指令,将生成的单机控制指令发送给对抗数据交互模块;
[0018]多智能体任务加载控制单元,服务于智能博弈算法训练过程中的多智能体博弈策略协同对抗智能训练过程,接收多机任务初始化指令、仿真加速和减速指令,并在其内部生成对应飞行仿真平台的单机控制指令,将生成的单机控制指令发送给对抗数据交互模块。
[0019]进一步地,所述博弈对抗数据交互模块还用于:
[0020]接收飞行仿真平台对于飞行仿真平台控制指令的执行反馈结果,将反馈结果反馈给对应的博弈对抗训练仿真控制模块。
[0021]进一步地,所述博弈对抗数据交互模块还用于:
[0022]接收飞行仿真平台仿真过程中的智能体的状态数据以及仿真环境的环境数据,在内部进行解析处理后,反馈给智能博弈算法模块,同时接收来自智能博弈算法模块对于智能体的控制指令,将其解析后发送到飞行仿真平台中的仿真平台战机控制单元,激励仿真
平台的继续运行。
[0023]进一步地,所述智能博弈对抗训练算法包括强化学习、模仿学习和遗传优化算法。
[0024]进一步地,所述设计编辑智能博弈算法,包括任务加载的时机、任务加载对象、任务初始化编辑需求、博弈算法和深度学习网络设计。
[0025]进一步地,所述智能博弈算法模块通过向博弈对抗训练仿真控制模块发送仿真控制指令,完成对飞行仿真平台的控制;通过发送算法生成的智能体控制指令和接收博弈对抗数据交互模块反馈的仿真环境的状态反馈数据实现博弈智能算法的训练优化。
[0026]一种面向空中对抗仿真平台的博弈智能算法训练的训练方法,包括:
[0027]步骤1,智能博弈算法模块判断是否需要更新任务场景,若需要则向博弈对抗训练仿真控制模块发送任务场景更新需求,若不需要直接跳转至步骤5;
[0028]步骤2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向空中对抗仿真平台的博弈智能算法训练框架,其特征在于,包括算法训练平台以及飞行仿真平台,其中算法训练平台中布置有智能博弈算法模块、博弈对抗训练仿真控制模块以及博弈对抗数据交互模块;飞行仿真平台中布置有飞行仿真平台控制模块,其中:飞行仿真平台控制模块用于根据算法训练需求控制飞行仿真平台进行仿真推演,接收仿真平台控制数据和仿真平台战机控制数据,并在其内部对仿真平台控制数据中的任务编辑指令、任务加载指令和战机控制指令按仿真平台接口规则处理,将处理后的各指令发给飞行仿真平台,控制飞行仿真平台对博弈对抗任务进行仿真推演;飞行仿真平台将博弈对抗任务的仿真结果数据以及仿真平台运行状态数据发送给算法训练平台中的博弈对抗数据交互模块;博弈对抗训练仿真控制模块用于根据博弈智能算法训练需求,生成对应的博弈对抗任务编辑指令和博弈任务重置加载指令,接收智能博弈算法模块的博弈对抗训练仿真控制指令,根据控制指令生成飞行仿真平台控制指令,发送给博弈对抗数据交互模块进行数据交联处理;博弈对抗数据交互模块用于处理训练框架中各模块之间的数据交联任务,该模块接收博弈对抗训练仿真控制模块生成的飞行仿真平台控制指令,并将其发送到对应的飞行仿真平台的对应单元,实现博弈智能算法训练过程中对于飞行仿真平台的控制;智能博弈算法模块用于集成各种智能博弈对抗训练算法,使用人员在智能博弈算法模块设计编辑智能博弈算法,通过智能博弈算法模块驱动整个算法框架运行。2.根据权利要求1所述的面向空中对抗仿真平台的博弈智能算法训练框架,其特征在于,所述飞行仿真平台控制模块包括以下子单元:仿真平台任务编辑单元,用于控制飞行仿真平台根据博弈智能算法需求实现仿真任务编辑,接收任务编辑指令,在飞行仿真平台中完成任务在线编辑,并将任务编辑结果反馈给博弈对抗数据交互模块;仿真平台任务加载单元,用于控制飞行仿真平台根据博弈智能算法训练需求加载具备特定任务场景的博弈任务,接收任务加载指令,控制飞行仿真平台完成特定任务加载和仿真启动,并将任务加载状态反馈给博弈对抗数据交互模块;仿真平台战机控制单元,用于控制飞行仿真平台根据博弈智能算法训练过程中提供的控制指令在仿真环境中实时进行仿真推演,接收智能算法战机控制指令数据,驱动仿真平台进行博弈任务仿真推演,并将博弈任务仿真结果数据实时反馈给算法训练平台。3.根据权利要求1所述的面向空中对抗仿真平台的博弈智能算法训练框架,其特征在于,所述博弈对抗训练仿真控制模块包括以下子单元:博弈对抗任务编辑单元,服务于博弈智能算法训练过程中的任务编辑工作,接收博弈智能算法任务场景更新需求,并在其内部生成对应的任务编辑指令,将处理后的任务编辑指令发送给博弈对抗数据交互模块;单智能体任务加载控制单元,服务于智能博弈算法训练过程中的单智能体的智能训练过程,接收单机任务初始化指令、仿真加速和减速指令,并在其内部生成对应飞行仿真平台的单机控制指令,将生成的单机控制指令发送给对抗数据交互模块;多智能体任务加载控制单元,服务于智能博弈算法训练过程中的多智能体博弈策略协
同对抗智能训练过程,接收多机任务初始化指令、仿真加速和减速指令,并在其内部生成对应飞行仿真平台的单机控制指令,将生成的单机控制指令发送给对抗数据交互模块。4.根据权利要求1所述的面向空中对抗仿真平台的博弈智能算法训练框架,其特征在于,所述博弈对抗数据交互模块还用于:接收飞行仿真平台对于飞行仿真平台控制指令的执行反馈结果,将反馈结果反馈给对应的博弈对抗训练仿真控制模块。5.根据权利要求1所述的面向空中对抗仿真平台的博弈智能算法训练框架,其特征在于,所述博弈对抗数据交...

【专利技术属性】
技术研发人员:崔振新裘旭益姚子羽杨曦中孙邱鹏董晨石双江吴帅
申请(专利权)人:中国航空无线电电子研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1