【技术实现步骤摘要】
多智能体强对抗仿真方法、装置及电子设备
[0001]本专利技术涉及系统仿真
,尤其涉及一种多智能体强对抗仿真方法、装置及电子设备。
技术介绍
[0002]多智能体建模方法,是基于人工智能和组织行为学的一种模型理论,多智能体系统(Multi Agent System,MAS)与具体领域数学模型研究相结合,已经覆盖仿生优化算法、计算经济学、人工社会以及知识传播工程及战争政治复杂系统等多个传统和前沿科学领域。
[0003]现有的深度强化学习(Deep Reinforcement Learning,DQN)技术框架是建立多智能体强对抗模型的主要方法之一。但是,在多智能体强对抗应用中,连续的时序输出动作空间维数庞大,导致DQN模型的参数数量也极为庞大。如果从初始值开始训练模型参数,需要耗费大量的训练时间,才能取得较为满意的结果,效率较低。
技术实现思路
[0004]本专利技术提供一种多智能体强对抗仿真方法、装置及电子设备,用以解决现有技术运算效率低的缺陷,实现有效提高运算效率的目标。
[0005]本专利技术提供一种多智能体强对抗仿真方法,包括:
[0006]从对抗仿真引擎获取多轮演示对抗回放数据,并基于所述对抗回放数据,采用生成对抗网络技术,训练获取神经网络策略模型;
[0007]利用所述神经网络策略模型,模拟所述多智能体在强对抗过程中的决策过程,完成多智能体强对抗仿真。
[0008]根据本专利技术一个实施例的多智能体强对抗仿真方法,所述神经网络策略模型包括判别网络 ...
【技术保护点】
【技术特征摘要】
1.一种多智能体强对抗仿真方法,其特征在于,包括:从对抗仿真引擎获取多轮演示对抗回放数据,并基于所述对抗回放数据,采用生成对抗网络技术,训练获取神经网络策略模型;利用所述神经网络策略模型,模拟所述多智能体在强对抗过程中的决策过程,完成多智能体强对抗仿真。2.根据权利要求1所述的多智能体强对抗仿真方法,其特征在于,所述神经网络策略模型包括判别网络和策略网络;其中,所述判别网络用于对输入对抗数据进行分类,所述判别网络的输出用于指示所述输入对抗数据是否符合演示对抗策略;所述策略网络用于读取所述强对抗过程的状态数据,并基于所述状态数据,产生在所述状态数据下应采取的对抗策略。3.根据权利要求2所述的多智能体强对抗仿真方法,其特征在于,在所述训练获取神经网络策略模型之前,还包括:确定演示样本与模仿样本的判别损失总和,作为所述判别网络的损失,所述判别网络的损失函数表示如下:D
loss
=D
loss-expert
+D
loss-learner
;式中,D
loss
表示所述判别网络的损失,D
loss-expert
表示所述判别网络对所述演示样本的实际输出与预期输出的交叉熵,D
loss-learner
表示所述判别网络对所述模仿样本的实际输出与预期输出的交叉熵;确定所述判别网络的目标为最小化所述判别损失总和。4.根据权利要求3所述的多智能体强对抗仿真方法,其特征在于,在所述确定演示样本与模仿样本的判别损失总和,作为所述判别网络的损失之前,还包括:按如下公式计算所述交叉熵,所述如下公式为:l(x,y)=L={l1,...,l
n
,...,l
N
}
T
;l
n
=-w
n
[y
n
·
logx
n
+(1-v
n
)
·
log(1-x
n
)];式中,l(x,y)表示向量x与y的交叉熵,定义为向量x与y各个分量的交叉熵组成的向量{l1,...,l
n
,...,l
N
}
T
,l
n
为向量x、y的对应分量...
【专利技术属性】
技术研发人员:白桦,王群勇,孙旭朋,
申请(专利权)人:北京圣涛平试验工程技术研究院有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。