一种自我策略迭代吸收的GFT智能决策模型自搏训练方法技术

技术编号:17346822 阅读:53 留言:0更新日期:2018-02-25 12:22
本发明专利技术提供一种自我策略迭代吸收的GFT智能决策模型自搏训练方法,如下步骤:从自搏训练的第N代开始,对前N代的GFT算法模型的策略对抗能力进行排序;挑选出最好的n个GFT算法模型,进行组合,保证n个权值的总和为1,形成第N代的组合GFT;选用启发式优化方法,在策略对抗中对n个总和为1的GFT的权值进行优化,得到优化后的n个权值;对n个权值进行排序,删除其中权值较小的m个GFT,m<<n;从自搏训练的第N+k代生成的GFT算法模型中选出能力排名靠前的m个GFT,补充到组合GFT中,形成新的组合GFT。本发明专利技术所提供的方法,可以实现算法模型的决策能力的螺旋式上升。

A self pacing training method for GFT intelligent decision model with self strategy iterative absorption

The present invention provides a self absorption policy iteration GFT intelligent decision model since the stroke training method, the following steps: from the N since the stroke training to start, the algorithm of GFT model N generation strategy against the ability to sort out; n GFT algorithm model, the best combination, to ensure a total of n the weight is 1, the formation of combination of GFT N generation; the heuristic optimization method of N, a sum of 1 GFT weight in strategy against optimization, optimal n weights; sort of N weights, delete the smaller weight of M GFT, m < < n; N+k is selected from the GFT algorithm model since the stroke training generation capacity ranking m GFT, added GFT, the formation of new combinations of GFT. The method provided by the invention can realize the spiral rise of the decision ability of the algorithm model.

【技术实现步骤摘要】
一种自我策略迭代吸收的GFT智能决策模型自搏训练方法
本专利技术属于无人机智能算法领域,具体涉及一种自我策略迭代吸收的GFT智能决策模型自搏训练方法。
技术介绍
GFT(geneticfuzzytree,遗传模糊树)作为一种实用性较强的智能决策算法,已被证明能在高保真的模拟空战任务中实现无人战斗机的飞行控制和战术决策,这说明训练成熟的GFT算法可用于某些策略性较强的场景下的智能决策。在GFT算法模型的工程化软件实现过程中,对GFT算法模型的自搏训练是非常重要的环节,自搏训练的过程即建立若干个模拟对抗环境,对抗的博弈环境为零和博弈(结局必有一方胜、一方败),每个环境中都有被两个不同参数的GFT算法分别操纵的两个基本模型相同的AI进行策略对抗,挑选出每个环境中获胜的AI中的GFT决策算法模型,经过复制、交叉、变异后进入下一代的策略对抗,如此过程经过循环的自搏迭代,实现GFT算法模型在策略对抗方面的能力提升。很明显,对算法模型的自搏训练方法的设计非常重要,良好的自搏训练方法会使GFT算法模型在训练过程中具有较快的策略吸收能力,极大程度的提高GFT算法模型的决策能力。GFT算法模型经过多代的自我博弈迭代,胜率靠前的几个GFT模型或几组GFT模型参数(GFT1、GFT2、GFT3、…、GFTn)会出现这样的问题:各代GFT算法模型代间击败上代GFT,而代间的获胜却没有实现GFT算法模型实际决策能力的上升。如图1所示,在第二代策略对抗中获胜的GFT2击败了第一代策略对抗中获胜的GFT1,在第三代策略对抗中获胜的GFT3击败了第二代策略对抗中获胜的GFT2,而在第三代策略对抗中获胜的GFT3又击败了GFT1,各个迭代阶段训练出的AI互相击败,而其在策略对抗方面的能力并没有得到实质上的提升,这样的自搏训练方法会导致GFT在迭代训练中对策略的吸收能力停滞,无法达到通过逐代的训练使GFT算法模型的策略能力螺旋上升的目的。
技术实现思路
本专利技术的目的在于提供一种自我策略迭代吸收的GFT智能决策模型自搏训练方法,克服或减轻现有技术的至少一个上述缺陷。本专利技术的目的通过如下技术方案实现:一种自我策略迭代吸收的GFT智能决策模型自搏训练方法,包括如下步骤:步骤一:从自搏训练的第N代开始,对前N代的GFT算法模型的策略对抗能力进行排序;步骤二:挑选出最好的n个GFT算法模型,进行组合:comGFT=lamda1GFT1+lamda2GFT2+…+lamdanGFTnlamda1+lamda2+…+lamdan=1,n个权值的总和为1,comGFT为第N代的组合GFT;步骤三:选用启发式优化方法,在策略对抗中对n个总和为1的GFT的权值进行优化,得到优化后的n个权值;步骤四:对n个权值进行排序,删除其中权值较小的m个GFT,m&lt;&lt;n;步骤五:从自搏训练的第N+k代生成的GFT算法模型中选出能力排名靠前的m个GFT,补充到comGFT中,形成新的comGFT。优选地是,所述步骤一中按适应度值对各版本GFT进行排序。优选地是,所述步骤三中的启发式优化方法为遗传算法GA,优化形成GGFT模型,并对该模型进行选择、交叉、变异、重组,形成GGFT模型在自搏迭代中的能力提升。优选地是,所述步骤五中挑选出的能力排名靠前的m个GFT与第N代选出的GFT不重复,并且有变异基因的优先挑选。本专利技术所提供的一种自我策略迭代吸收的GFT智能决策模型自搏训练方法的有益效果在于,解决GFT算法模型在自搏训练过程中策略的迭代吸收能力较差的问题。采用本专利中所述的GFT自搏训练方法,GFT算法模型在迭代过程中的自我策略吸收能力明显好于普通的算法自搏训练方法,可以实现算法模型的决策能力的螺旋式上升。附图说明图1为现有自搏训练方法导致GFT在迭代训练中对策略的吸收能力停滞的循环示意图;图2为本专利技术自我策略迭代吸收的GFT智能决策模型自搏训练方法中对GFT算法模型的策略对抗能力进行排序的示意图;图3本专利技术一实施例采用遗传算法GA对GFT的权值进行优化的流程图。具体实施方式为使本专利技术实施的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合实施例对本专利技术的自我策略迭代吸收的GFT智能决策模型自搏训练方法做进一步详细说明。一种自我策略迭代吸收的GFT智能决策模型自搏训练方法,实施步骤如下。步骤一:从自搏训练的第5代开始,对前5代的GFT算法模型的策略对抗能力进行排序,具体按适应度值对各版本GFT进行排序,见图2所示。步骤二:挑选出最好的20个GFT算法模型(即能力排序中前20个GFT),进行组合:comGFT=lamda1GFT1+lamda2GFT2+…+lamdanGFT20lamda1+lamda2+…+lamda20=1,20个权值的总和为1,这样形成第5代的组合GFT即comGFT。通过对较好的GFT策略模型进行线性组合的方式,能够实现对前代GFT学到的策略的吸收。步骤三:选用启发式优化方法,在策略对抗中对20个总和为1的GFT的权值进行优化。该启发式优化方法选择遗传算法GA,优化形成GGFT模型,对该模型进行选择、交叉、变异、重组,形成GGFT模型在自搏迭代中的能力提升,详细提升过程如下:1)对这一代的GGFT中的n个GFT的n个权值建立染色体;2)初始化种群规模、最大进化代数;3)设置权值参数范围;4)生成群种P(t);5)将群种中的GGFT输入策略对抗环境,驯良GGFT模型;6)计算各个染色体适应度;7)计算个体累计概率;8)通过复制、交叉、变异进化,保留最优染色体;9)生成种群P(t+1);判定是否满足收敛条件,否则返回4),是则进行下一步;10)解码染色体,提取GGFT最优参数;11)删除权值较小的m个子GFT模型,引入自搏训练中新变异的策略能力靠前的m个GFT模型;12)形成新的GGFT,详见图3。进而得到本实施例优化后的20个权值。步骤四:对20个权值进行排序,删除其中权值较小的4个GFT。步骤五:从自搏训练的第6代生成的GFT算法模型中选出能力排名靠前的4个GFT,补充到comGFT中,形成新的comGFT,其中,该4个GFT做到与第5代选出的GFT不重复,并且有变异基因的优先挑选,如此完成comGFT的迭代更新。以上所述,仅为本专利技术的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。因此,本专利技术的保护范围应以所述权利要求的保护范围为准。本文档来自技高网
...
一种自我策略迭代吸收的GFT智能决策模型自搏训练方法

【技术保护点】
一种自我策略迭代吸收的GFT智能决策模型自搏训练方法,其特征在于,包括如下步骤:步骤一:从自搏训练的第N代开始,对前N代的GFT算法模型的策略对抗能力进行排序;步骤二:挑选出最好的n个GFT算法模型,进行组合:comGFT=lamda1GFT1+lamda2GFT2+…+lamdanGFTnlamda1+lamda2+…+lamdan=1,n个权值的总和为1,comGFT为第N代的组合GFT;步骤三:选用启发式优化方法,在策略对抗中对n个总和为1的GFT的权值进行优化,得到优化后的n个权值;步骤四:对n个权值进行排序,删除其中权值较小的m个GFT,m<<n;步骤五:从自搏训练的第N+k代生成的GFT算法模型中选出能力排名靠前的m个GFT,补充到comGFT中,形成新的comGFT。

【技术特征摘要】
1.一种自我策略迭代吸收的GFT智能决策模型自搏训练方法,其特征在于,包括如下步骤:步骤一:从自搏训练的第N代开始,对前N代的GFT算法模型的策略对抗能力进行排序;步骤二:挑选出最好的n个GFT算法模型,进行组合:comGFT=lamda1GFT1+lamda2GFT2+…+lamdanGFTnlamda1+lamda2+…+lamdan=1,n个权值的总和为1,comGFT为第N代的组合GFT;步骤三:选用启发式优化方法,在策略对抗中对n个总和为1的GFT的权值进行优化,得到优化后的n个权值;步骤四:对n个权值进行排序,删除其中权值较小的m个GFT,m&lt;&lt;n;步骤五:从自搏训练的第N+k代生成的G...

【专利技术属性】
技术研发人员:费思邈管聪姚宗信杨芳朴海音杜冲葛俊
申请(专利权)人:中国航空工业集团公司沈阳飞机设计研究所
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1