The present invention provides a self absorption policy iteration GFT intelligent decision model since the stroke training method, the following steps: from the N since the stroke training to start, the algorithm of GFT model N generation strategy against the ability to sort out; n GFT algorithm model, the best combination, to ensure a total of n the weight is 1, the formation of combination of GFT N generation; the heuristic optimization method of N, a sum of 1 GFT weight in strategy against optimization, optimal n weights; sort of N weights, delete the smaller weight of M GFT, m < < n; N+k is selected from the GFT algorithm model since the stroke training generation capacity ranking m GFT, added GFT, the formation of new combinations of GFT. The method provided by the invention can realize the spiral rise of the decision ability of the algorithm model.
【技术实现步骤摘要】
一种自我策略迭代吸收的GFT智能决策模型自搏训练方法
本专利技术属于无人机智能算法领域,具体涉及一种自我策略迭代吸收的GFT智能决策模型自搏训练方法。
技术介绍
GFT(geneticfuzzytree,遗传模糊树)作为一种实用性较强的智能决策算法,已被证明能在高保真的模拟空战任务中实现无人战斗机的飞行控制和战术决策,这说明训练成熟的GFT算法可用于某些策略性较强的场景下的智能决策。在GFT算法模型的工程化软件实现过程中,对GFT算法模型的自搏训练是非常重要的环节,自搏训练的过程即建立若干个模拟对抗环境,对抗的博弈环境为零和博弈(结局必有一方胜、一方败),每个环境中都有被两个不同参数的GFT算法分别操纵的两个基本模型相同的AI进行策略对抗,挑选出每个环境中获胜的AI中的GFT决策算法模型,经过复制、交叉、变异后进入下一代的策略对抗,如此过程经过循环的自搏迭代,实现GFT算法模型在策略对抗方面的能力提升。很明显,对算法模型的自搏训练方法的设计非常重要,良好的自搏训练方法会使GFT算法模型在训练过程中具有较快的策略吸收能力,极大程度的提高GFT算法模型的决策能力。GFT算法模型经过多代的自我博弈迭代,胜率靠前的几个GFT模型或几组GFT模型参数(GFT1、GFT2、GFT3、…、GFTn)会出现这样的问题:各代GFT算法模型代间击败上代GFT,而代间的获胜却没有实现GFT算法模型实际决策能力的上升。如图1所示,在第二代策略对抗中获胜的GFT2击败了第一代策略对抗中获胜的GFT1,在第三代策略对抗中获胜的GFT3击败了第二代策略对抗中获胜的GFT2,而在第三代策 ...
【技术保护点】
一种自我策略迭代吸收的GFT智能决策模型自搏训练方法,其特征在于,包括如下步骤:步骤一:从自搏训练的第N代开始,对前N代的GFT算法模型的策略对抗能力进行排序;步骤二:挑选出最好的n个GFT算法模型,进行组合:comGFT=lamda1GFT1+lamda2GFT2+…+lamdanGFTnlamda1+lamda2+…+lamdan=1,n个权值的总和为1,comGFT为第N代的组合GFT;步骤三:选用启发式优化方法,在策略对抗中对n个总和为1的GFT的权值进行优化,得到优化后的n个权值;步骤四:对n个权值进行排序,删除其中权值较小的m个GFT,m<<n;步骤五:从自搏训练的第N+k代生成的GFT算法模型中选出能力排名靠前的m个GFT,补充到comGFT中,形成新的comGFT。
【技术特征摘要】
1.一种自我策略迭代吸收的GFT智能决策模型自搏训练方法,其特征在于,包括如下步骤:步骤一:从自搏训练的第N代开始,对前N代的GFT算法模型的策略对抗能力进行排序;步骤二:挑选出最好的n个GFT算法模型,进行组合:comGFT=lamda1GFT1+lamda2GFT2+…+lamdanGFTnlamda1+lamda2+…+lamdan=1,n个权值的总和为1,comGFT为第N代的组合GFT;步骤三:选用启发式优化方法,在策略对抗中对n个总和为1的GFT的权值进行优化,得到优化后的n个权值;步骤四:对n个权值进行排序,删除其中权值较小的m个GFT,m<<n;步骤五:从自搏训练的第N+k代生成的G...
【专利技术属性】
技术研发人员:费思邈,管聪,姚宗信,杨芳,朴海音,杜冲,葛俊,
申请(专利权)人:中国航空工业集团公司沈阳飞机设计研究所,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。