一种面向多作战单元协同决策的多智能体增强学习方法技术

技术编号:33125104 阅读:27 留言:0更新日期:2022-04-17 00:33
一种面向多作战单元协同决策的多智能体增强学习方法,包括步骤如下:针对红蓝方博弈对抗场景,建立多智能体增强学习模型,实现面向多作战单元的智能协同决策建模;采用事后目标转换方法增加有效训练样本数量,实现多智能体增强学习模型的优化收敛;以团队全局任务奖励为基准,以各作战单元具体动作奖励作为反馈信息,构建奖励函数;根据不同作战方案生成多种对手策略,利用奖励函数通过海量模拟博弈对抗对多智能体增强学习模型进行训练。本发明专利技术解决了现有技术中存在的红蓝方博弈对抗多作战单元决策协同性低、有价值训练样本难获取等问题。题。题。

【技术实现步骤摘要】
一种面向多作战单元协同决策的多智能体增强学习方法


[0001]本专利技术属于人工智能技术博弈对抗领域,涉及一种多智能体增强学习方法。

技术介绍

[0002][0003]多智能体深度强化学习是将多智能体的协作能力与强化学习的决策能力相结合以解决集群多单元的协同决策问题,是机器学习领域的一个新兴的研究热点和应用方向,其涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。国外相关研究机构对多智能体深度强化学习已开展了一些前期基础技术研究,国内对该项技术尤其是其在军事指挥领域中的应用相关研究工作目前还刚刚开始。
[0004]当前智能决策算法大多采用基于优化和基于先验知识的方法,针对红蓝方博弈对抗场景的多作战单元动态优化问题,存在决策协同性低、有价值训练样本难获取等问题。

技术实现思路

[0005]本专利技术的技术解决问题是:克服现有技术的不足,提出一种面向多作战单元协同决策的多智能体增强学习方法,解决了现有技术中存在的红蓝方博弈对抗多作战单元决策协同性低、有价值训练样本难获取等问题。
[0006]本专利技术的技术解决方案是:一种面向多作战单元协同决策的多智能体增强学习方法,包括步骤如下:
[0007]步骤一、针对红蓝方博弈对抗场景,建立多智能体增强学习模型,实现面向多作战单元的智能协同决策建模;
[0008]多智能体增强学习模型的构建过程如下:
[0009]搭建红蓝方博弈对抗场景;
>[0010]对红蓝方博弈对抗场景中的任务特性和决策点进行分析,确定协同任务决策点的状态空间;
[0011]针对协同任务决策点,建立多智能体增强学习模型。
[0012]确定协同任务决策点的状态空间的方法如下:
[0013]将博弈对抗场景整体态势信息和作战单元局部观测信息作为状态输入,通过固定部分状态输入取值进行缺省验证,剔除无用或起反作用状态,确定任务决策点的关键状态空间。
[0014]步骤二、采用事后目标转换方法增加有效训练样本数量,实现多智能体增强学习模型的优化收敛;
[0015]采用事后目标转换方法增强有效训练样本数量的具体方法为:
[0016]在每个回合迭代训练中,从经验池内根据采样概率值选择样本数据,将样本中智能体未能实现的原始任务目标更改为其在某一时刻能够达到的状态,构造有效正样本用于
模型训练。
[0017]采样概率值的计算公式如下:
[0018][0019]其中,p
i
=|δ
i
|+ε表示第i个样本的优先级,δ
i
表示第i个样本的时序差分误差,ε表示随机噪声,防止采样概率为0;α用于调节优先程度,P(i)为第i个样本数据的采样概率。
[0020]步骤三、以团队全局任务奖励为基准,以各作战单元具体动作奖励作为反馈信息,构建奖励函数;
[0021]构建奖励函数的方法为:
[0022]根据任务决策序列的终止时刻态势信息,计算全局任务奖励R
task

[0023]根据各作战单元的执行动作序列,计算每个作战单元的动作奖励R
i
;i表示作战单元的序号,i=1,2,3,
……
[0024]根据全局任务奖励R
task
和每个作战单元的动作奖励R
i
,计算红蓝方博弈对抗场景中各作战单元的协同任务决策反馈信息
[0025]全局任务奖励R
task
包括两类,分别为:
[0026]任务完成奖励,指终止时刻红方完成作战任务目标;
[0027]毁伤奖励,指红方打击摧毁蓝方作战单元数量多于自身毁伤数量;
[0028]任务完成奖励和毁伤奖励均为double值,数值分布区间不同。
[0029]每个作战单元的动作奖励R
i
包括三类,分别为:
[0030]阵亡奖励,指红方作战单元被蓝方摧毁,为负奖励;
[0031]弹药消耗奖励,指红方作战单元消耗的弹药数,为负奖励;
[0032]视野奖励,指红方作战单元能够探测到蓝方态势信息,为正奖励;
[0033]红方阵亡奖励、弹药消耗奖励和视野奖励均为double值,数值分布区间不同。
[0034]红蓝方博弈对抗场景中各作战单元的协同任务决策反馈信息的计算公式为:
[0035][0036]其中,η表示团队全局任务奖励的重要程度,η=0表示各作战单元只考虑自身动作带来的收益,η=1表示只考虑团队整体收益。
[0037]步骤四、根据不同作战方案生成多种对手策略,利用奖励函数通过海量模拟博弈对抗对多智能体增强学习模型进行训练。
[0038]利用奖励函数通过海量模拟博弈对抗对多智能体增强学习模型进行训练的具体方法为:
[0039]根据不同作战方案构建蓝方策略库,每隔设定的训练周期,利用红方在线决策模型对蓝方策略库进行扩充,利用奖励函数通过海量模拟博弈对抗完成红方多智能体增强学习模型的进化训练。
[0040]与现有技术相比,本专利技术具有如下有益效果:
[0041]1、本专利技术利用事后目标转换对红蓝方博弈对抗场景在线获取的样本进行优化选
择并生成有价值训练样本,可有效提高具有较大搜索空间的兵棋推演场景下正样本数量,实现增强学习智能模型的快速优化收敛;
[0042]2、本专利技术利用全局任务奖励和各作战单元具体动作奖励相结合,实时计算增强学习模型的反馈,更加适用于多作战单元红蓝方博弈对抗场景,提升增强学习模型的协同效果;
[0043]3、本专利技术构建基于不同作战方案的蓝方策略库,采用海量自博弈推演完成红方多智能体增强学习模型的进化训练,通过增加对手策略多样性及对战难度,可有效提升增强学习模型的作战决策能力。
附图说明
[0044]图1为本专利技术方法流程图;
[0045]图2为本专利技术的模型结构图;
[0046]图3为本专利技术的事后目标转换方法示意图。
具体实施方式
[0047]本专利技术提出一种面向多作战单元协同决策的多智能体增强学习方法,如图1 所示,步骤包括:
[0048]第一步,针对红蓝方博弈对抗场景,建立多智能体增强学习模型,实现面向多作战单元的智能协同决策建模。
[0049]多智能体增强学习模型的构建过程为:
[0050](1.1)搭建红蓝方博弈对抗场景;
[0051](1.2)对红蓝方博弈对抗场景中的任务特性和决策点进行分析,确定任务决策点的状态空间;
[0052]状态空间设计的具体方法为:
[0053]在决策模型建模前,将博弈对抗场景整体态势信息和作战单元局部观测信息作为状态输入,通过固定部分状态输入取值进行缺省验证,剔除无用或起反作用状态,确定任务决策点的关键状态空间。
[0054](1.3)针对步骤(1.2)中的协同任本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向多作战单元协同决策的多智能体增强学习方法,其特征在于,包括步骤如下:针对红蓝方博弈对抗场景,建立多智能体增强学习模型,实现面向多作战单元的智能协同决策建模;采用事后目标转换方法增加有效训练样本数量,实现多智能体增强学习模型的优化收敛;以团队全局任务奖励为基准,以各作战单元具体动作奖励作为反馈信息,构建奖励函数;根据不同作战方案生成多种对手策略,利用奖励函数通过模拟博弈对抗对多智能体增强学习模型进行训练。2.根据权利要求1所述的一种面向多作战单元协同决策的多智能体增强学习方法,其特征在于:多智能体增强学习模型的构建过程如下:搭建红蓝方博弈对抗场景;对红蓝方博弈对抗场景中的任务特性和决策点进行分析,确定协同任务决策点的状态空间;针对协同任务决策点,建立多智能体增强学习模型。3.根据权利要求2所述的一种面向多作战单元协同决策的多智能体增强学习方法,其特征在于:确定协同任务决策点的状态空间的方法如下:将博弈对抗场景整体态势信息和作战单元局部观测信息作为状态输入,通过固定部分状态输入取值进行缺省验证,剔除无用或起反作用状态,确定任务决策点的关键状态空间。4.根据权利要求1所述的一种面向多作战单元协同决策的多智能体增强学习方法,其特征在于:采用事后目标转换方法增强有效训练样本数量的具体方法为:在每个回合迭代训练中,从经验池内根据采样概率值选择样本数据,将样本中智能体未能实现的原始任务目标更改为其在某一时刻能够达到的状态,构造有效正样本用于模型训练。5.根据权利要求4所述的一种面向多作战单元协同决策的多智能体增强学习方法,其特征在于:采样概率值的计算公式如下:其中,p
i
=|δ
i
|+ε表示第i个样本的优先级,δ
i
表示第i个样本的时序差分误差,ε表示随机噪声,防止采样概率为0;α用于调节优先程度,P(i)为第i个样本数据的采样概率。6.根据权利要求1所述的一种面向多作战单元协同决策的多智能体增强学习方法,其特征在于:构建奖励函数的方法为:...

【专利技术属性】
技术研发人员:李博遥郑本昌路鹰黄虎惠俊鹏陈海鹏王振亚李君阎岩范佳宣李丝然何昳頔张佳任金磊吴志壕刘峰范中行张旭辉赵大海韩特肖肖
申请(专利权)人:中国运载火箭技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1