当前位置: 首页 > 专利查询>北京圣涛平试验工程技术研究院有限责任公司专利>正文

多智能体强对抗仿真方法、装置及电子设备制造方法及图纸

技术编号：27532757 阅读：28 留言：0更新日期：2021-03-03 11:13

本发明专利技术提供一种多智能体强对抗仿真方法、装置及电子设备，其中所述方法包括：从对抗仿真引擎获取多轮演示对抗回放数据，并基于所述对抗回放数据，采用生成对抗网络技术，训练获取神经网络策略模型；利用所述神经网络策略模型，模拟所述多智能体在强对抗过程中的决策过程，完成多智能体强对抗仿真。本发明专利技术通过借助对历史数据的学习，能够加快多智能体强对抗模型的训练速度，从而有效提高运算效率，并有效节约计算资源。节约计算资源。节约计算资源。

全部详细技术资料下载

【技术实现步骤摘要】
多智能体强对抗仿真方法、装置及电子设备

[0001]本专利技术涉及系统仿真
，尤其涉及一种多智能体强对抗仿真方法、装置及电子设备。

技术介绍

[0002]多智能体建模方法，是基于人工智能和组织行为学的一种模型理论，多智能体系统(Multi Agent System,MAS)与具体领域数学模型研究相结合，已经覆盖仿生优化算法、计算经济学、人工社会以及知识传播工程及战争政治复杂系统等多个传统和前沿科学领域。
[0003]现有的深度强化学习(Deep Reinforcement Learning,DQN)技术框架是建立多智能体强对抗模型的主要方法之一。但是，在多智能体强对抗应用中，连续的时序输出动作空间维数庞大，导致DQN模型的参数数量也极为庞大。如果从初始值开始训练模型参数，需要耗费大量的训练时间，才能取得较为满意的结果，效率较低。

技术实现思路

[0004]本专利技术提供一种多智能体强对抗仿真方法、装置及电子设备，用以解决现有技术运算效率低的缺陷，实现有效提高运算效率的目标。
[0005]本专利技术提供一种多智能体强对抗仿真方法，包括：
[0006]从对抗仿真引擎获取多轮演示对抗回放数据，并基于所述对抗回放数据，采用生成对抗网络技术，训练获取神经网络策略模型；
[0007]利用所述神经网络策略模型，模拟所述多智能体在强对抗过程中的决策过程，完成多智能体强对抗仿真。
[0008]根据本专利技术一个实施例的多智能体强对抗仿真方法，所述神经网络策略模型包括判别网络...

【技术保护点】

【技术特征摘要】
1.一种多智能体强对抗仿真方法，其特征在于，包括：从对抗仿真引擎获取多轮演示对抗回放数据，并基于所述对抗回放数据，采用生成对抗网络技术，训练获取神经网络策略模型；利用所述神经网络策略模型，模拟所述多智能体在强对抗过程中的决策过程，完成多智能体强对抗仿真。2.根据权利要求1所述的多智能体强对抗仿真方法，其特征在于，所述神经网络策略模型包括判别网络和策略网络；其中，所述判别网络用于对输入对抗数据进行分类，所述判别网络的输出用于指示所述输入对抗数据是否符合演示对抗策略；所述策略网络用于读取所述强对抗过程的状态数据，并基于所述状态数据，产生在所述状态数据下应采取的对抗策略。3.根据权利要求2所述的多智能体强对抗仿真方法，其特征在于，在所述训练获取神经网络策略模型之前，还包括：确定演示样本与模仿样本的判别损失总和，作为所述判别网络的损失，所述判别网络的损失函数表示如下：D
loss
＝D
loss-expert
+D
loss-learner
；式中，D
loss
表示所述判别网络的损失，D
loss-expert
表示所述判别网络对所述演示样本的实际输出与预期输出的交叉熵，D
loss-learner
表示所述判别网络对所述模仿样本的实际输出与预期输出的交叉熵；确定所述判别网络的目标为最小化所述判别损失总和。4.根据权利要求3所述的多智能体强对抗仿真方法，其特征在于，在所述确定演示样本与模仿样本的判别损失总和，作为所述判别网络的损失之前，还包括：按如下公式计算所述交叉熵，所述如下公式为：l(x，y)＝L＝{l1，...，l
n
，...，l
N
}
T
；l
n
＝-w
n
[y
n
·
logx
n
+(1-v
n
)
·
log(1-x
n
)]；式中，l(x，y)表示向量x与y的交叉熵，定义为向量x与y各个分量的交叉熵组成的向量{l1，...，l
n
，...，l
N
}
T
，l
n
为向量x、y的对应分量...

【专利技术属性】
技术研发人员：白桦，王群勇，孙旭朋，
申请(专利权)人：北京圣涛平试验工程技术研究院有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人