面向多要素联合指控的分层多智能体增强学习方法技术

技术编号:33087329 阅读:40 留言:0更新日期:2022-04-15 10:53
本发明专利技术公开了一种面向多要素联合指控的分层多智能体增强学习方法,针对强化学习的状态空间、动作空间和奖励机制进行建模,在多智能体环境下分别进行研究和设计,将Actor

【技术实现步骤摘要】
面向多要素联合指控的分层多智能体增强学习方法


[0001]本专利技术属于军事对抗领域
,具体涉及一种面向多要素联合指控的分层多智能体增强学习方法。

技术介绍

[0002]在军事对抗领域,对各兵种单元能力认知,既包括个体单元能力认知,更重要的是对组合兵力单元的能力认知。这种能力认知是作战策略制定与进行任务分配的前提,对于提升战斗力具有重要意义。
[0003]随着人工智能的快速发展,AI从节约人力和时间、提高推演效率、支撑复杂推演提升到了打造指挥对抗领域的智能蓝军和辅助参谋的高度。所谓智能蓝军,就是让系统充当既定假想“蓝军”“绿军”参加演习。通过对有限样本数据的不断深度学习、强化学习,使得对手变得更加专业、更像假想蓝军,从而实现局部乃至全局的人机对抗。所谓辅助参谋,就是计算机系统充当隐藏于幕后的我方部分指挥力量、参谋力量,实现识别态势、发布计划、自主决策、监控行动、调整任务等功能,为我方指挥提供实时精准参谋。强化学习作为近几年崛起的深度学习中不同于有无监督学习的新兴技术,在实践中主要存在三个难点:奖励函数的设置由于只能依赖开发者对游戏本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,包括以下步骤:S1预设智能体推演环境;S2针对智能体推演环境,建立以状态为输入,以动作为输出的智能体强化学习模型,并利用奖励机制对智能体强化学习模型进行训练,得到智能体强化学习模型的最佳策略;所述智能体强化学习模型采用Actor

Critic网络架构,包括一个判别层和与各智能体一一对应的决策层,所述各决策层用于根据智能体当前局部观察所得状态预测智能体的动作,并输出至智能体推演环境,得到新的总体状态并输注至判别层,判别层根据当前总体状态、新的总体状态及奖励机制对决策层进行反馈,更新决策层策略。2.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述步骤S2中,输入智能体强化学习模型的状态空间包括智能体当前夺控点得分,智能体所处的地形类型,智能体观察模式,或剩余弹药数中的一种或一种以上;状态空间中的状态类型及各状态区间采用缺省验证的方式进行优化。3.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述步骤S2中,智能体强化学习模型的动作空间包括移动,射击等简单动作中的一种或一种以上;动作空间采用离散动作或归一化后的连续动作,所述连续动作归一化的方法为将连续动作映射到[

1,1]之间;当动作空间采用归一化后的连续动作空间时,步骤S2中Actor

Critic网络的判别层中设有与归一化后的连续动作空间相对应的激活函数。4.根据权利要求1或3所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述步骤S2中,智能体强化学习模型输出的各动作抽象为带参数的函数形式:Action=p(delay,Unit_Selection);其中,Action代表各动作,delay表示延迟,用于控制对应动作的生效时间,Unit_Selection表示智能体所有可能的目标单位或目标地点。5.根据权利要求1所述的一种面向多要素联合指控的分层多智能体增强学习方法,其特征在于,所述步骤S2中,智能体强化学习模型中的奖励机制包括鼓励射击,压制状态减分,血量扣除...

【专利技术属性】
技术研发人员:路鹰郑本昌惠俊鹏黄虎李君张佳任金磊阎岩王振亚范佳宣李丝然何昳頔李博遥吴志壕刘峰范中行张旭辉陈海鹏赵大海韩特矫慧古月郭晶
申请(专利权)人:中国运载火箭技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1