面向动态博弈的智能飞行器类脑认知学习方法技术

技术编号:25044364 阅读:18 留言:0更新日期:2020-07-29 05:34
提供一种面向动态博弈的智能飞行器类脑认知学习方法,包括下列步骤:构建并初始化长时记忆和短时记忆中的陈述性知识和程序性知识;构建并初始化训练环境;构建并初始化工作记忆;根据动作策略

【技术实现步骤摘要】
面向动态博弈的智能飞行器类脑认知学习方法
本专利技术涉及机器学习和智能决策
,包括对人类大脑的认知活动机理的总结以及在此基础上设计的用于空战对抗的类脑认知机理学习方法,具体涉及一种面向动态博弈的智能飞行器类脑认知学习方法。
技术介绍
近几十年来发生的高技术局部战争让世界认识到无人机对战争格局的重大影响。随着探测、识别、智能决策、自主控制等方面技术的飞速发展,夺取制空权必将成为未来无人机的一大发展方向,并将会对未来战争模式和理念产生重大影响。虽然雷达技术和导弹使得空战的形式不断拓展,但现代飞机仍然保留针对视距内空空格斗的设计,飞行员仍然进行针对近距格斗的训练,这说明近距空战仍然是现代空战必不可少的任务。现有无人机的操控方式无法满足动态博弈过程的实时性、对抗性、复杂性要求,因此无人机的自主决策能力至关重要。针对自主动态博弈问题,现有的方法主要分为以下几类:1)统计决策方法,统计决策方法以基于贝叶斯理论的决策影响图方法为代表。影响图提供了一个直观的方法在空战建模过程中综合飞行员知识,使得在空战模型中加入飞行员的偏好、感知和信念变本文档来自技高网...

【技术保护点】
1.面向动态博弈的智能飞行器类脑认知学习方法,其特征在于,包括下列步骤:/n首先给出所涉及的部分符号的说明:采用马尔科夫过程对空战对抗进行描述,用元组

【技术特征摘要】
1.面向动态博弈的智能飞行器类脑认知学习方法,其特征在于,包括下列步骤:
首先给出所涉及的部分符号的说明:采用马尔科夫过程对空战对抗进行描述,用元组表示对抗过程要素,其中,为态势的集合,为动作的集合,为态势转移概率矩阵,为奖励集合,为动作策略,其中表示以μ为均值,以σ2为方差的正态分布,采用以μ为均值σ2为方差的随机正态分布动作策略,γ∈(0,1)为折扣因子,越接近1表示后续态势的价值所占的评价比重越高;
V(st)表示t时刻的态势价值,它的定义为当前时刻之后的折扣奖励的期望:



其中,t为任意实数,表示对抗过程中的某一时刻,分别表示根据策略分布和态势转移概率采样的得到的动作和态势,带下角标的at表示t时刻的动作,at+1表示t+1时刻的动作,带下角标的st+1表示t+1时刻的态势,为t时刻态势st所获得的奖励值,l为0到无穷大的自然数,表示从t时刻的态势st出发,采用所有可能的动作产生的所有可能的态势的折扣奖励的和的期望值;
Q(st,at)表示t时刻做动作at的态势-动作价值:



其中E[r(st,at)]表示在t时刻态势st条件下做动作at所获得的奖励值的期望,表示从t+1时刻出发所有可能的态势产生的奖励值的期望;
A(st,at)表示t时刻动作at的动作价值为:



面向动态博弈的智能飞行器类脑认知学习方法包括训练环境(1)、长时记忆(2)、短时记忆(3)、工作记忆(4)、驱动误差(5)、巩固学习(6)和快速学习(7)几部分;
步骤1:构建并初始化长时记忆(2)和短时记忆中(3)的陈述性知识(201、301)和程序性知识(202、302),具体方法为:
Step1:将空战知识分为程序性知识(202、302)和陈述性知识(201、301),陈述性知识(201、301),有两部分,分别位于长时记忆(2)和短时记忆(3)中;程序性知识(202、302)同样有两部分,分别位于长时记忆(2)和短时记忆(3)中;
Step2:采用深度神经网络表示两类知识;
①表示长时记忆和短时记忆中的陈述性知识(201和301)的神经网络结构相同,用ξL表示长时记忆(2)中陈述性知识(201)神经网络的参数,ξS表示短时记忆(3)中陈述性知识(301)神经网络的参数;长时记忆(2)中陈述性知识(201)可以表示为态势到态势价值之间的映射表示由参数ξL确定的t时刻的态势st的态势价值函数,短时记忆(3)中陈述性知识(301)可以表示为表示由参数ξS确定的t时刻的态势st的态势价值函数;
②表示长时记忆和短时记忆中的程序性知识(202和302)的神经网络结构相同,用ωL表示长时记忆(2)中程序性知识(202)神经网络的参数,ωS表示短时记忆(3)中程序性知识(302)神经网络的参数;长时记忆(2)中程序性知识(202)表示为态势到动作策略之间的映射表示由参数ωL确定的在态势st条件下的动作策略函数,用表示由参数ωL确定的所有态势下的动作策略函数,短时记忆(3)中程序性知识(302)表示为表示由参数ωS确定的在态势st条件下的动作策略函数;
Step3:采用随机正太分布初始化长时记忆(2)中和短时记忆(3)中陈述性知识(201、301)以及程序性知识(202、302)的神经网络参数ξL,ξS,ωL,ωS,令PeriodS=0,其中,PeriodS为短时记忆区更新次数;
步骤2:构建并初始化训练环境;
训练环境(1)的功能是采用数字仿真的方法,模拟两架飞机在三维空间中的运动,包含两架参与对抗的飞机(101、102),它接收根据自长时记忆(2)中程序性知识(202)输出的动作策略采样得到的动作序列at,at+1,...,输出态势序列st,st+1,...和奖励值序列rt,rt+1,...,其中t表示对抗过程中的某个时刻,at,at+1,...、st,st+1,...、rt,rt+1,...分别表示t,t+1,...时刻的动作、态势、奖励;根据需要学习的对抗任务,初始化两架参与对抗的飞机的初始坐标、姿态、速度信息;
步骤3:构建并初始化工作记忆(4);
工作记忆(4)的功能是暂时存储长时记忆(2)与训练环境(1)之间交互产生的动作序列、态势序列和奖励值序列;工作记忆的存储容量为k,k为大于1的正整数,表示工作记忆(4)能够同时存储k个动作序列、k个态势序列和k个奖励值序列,工作记忆(4)采用先进先出的原则,当存储数量达到k个时,最先进入的at-1,st-1,rt-1被遗忘(402),下一时刻,at+k+1,st+k+1,rt+k+1将会被记忆(401);初始化工作记忆(4),即为根据算法需要,为工作记忆(4)分配适当的内存空间,并将这部分空间清空;
步骤4:根据动作策略采样获得动作,并将动作输入给训练环...

【专利技术属性】
技术研发人员:魏瑞轩周凯张启瑞吴子沉
申请(专利权)人:中国人民解放军空军工程大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1