多智能体强对抗仿真方法、装置及电子设备制造方法及图纸

技术编号:27532757 阅读:28 留言:0更新日期:2021-03-03 11:13
本发明专利技术提供一种多智能体强对抗仿真方法、装置及电子设备,其中所述方法包括:从对抗仿真引擎获取多轮演示对抗回放数据,并基于所述对抗回放数据,采用生成对抗网络技术,训练获取神经网络策略模型;利用所述神经网络策略模型,模拟所述多智能体在强对抗过程中的决策过程,完成多智能体强对抗仿真。本发明专利技术通过借助对历史数据的学习,能够加快多智能体强对抗模型的训练速度,从而有效提高运算效率,并有效节约计算资源。节约计算资源。节约计算资源。

【技术实现步骤摘要】
多智能体强对抗仿真方法、装置及电子设备


[0001]本专利技术涉及系统仿真
,尤其涉及一种多智能体强对抗仿真方法、装置及电子设备。

技术介绍

[0002]多智能体建模方法,是基于人工智能和组织行为学的一种模型理论,多智能体系统(Multi Agent System,MAS)与具体领域数学模型研究相结合,已经覆盖仿生优化算法、计算经济学、人工社会以及知识传播工程及战争政治复杂系统等多个传统和前沿科学领域。
[0003]现有的深度强化学习(Deep Reinforcement Learning,DQN)技术框架是建立多智能体强对抗模型的主要方法之一。但是,在多智能体强对抗应用中,连续的时序输出动作空间维数庞大,导致DQN模型的参数数量也极为庞大。如果从初始值开始训练模型参数,需要耗费大量的训练时间,才能取得较为满意的结果,效率较低。

技术实现思路

[0004]本专利技术提供一种多智能体强对抗仿真方法、装置及电子设备,用以解决现有技术运算效率低的缺陷,实现有效提高运算效率的目标。
[0005]本专利技术提供一种多智能体强对抗仿真方法,包括:
[0006]从对抗仿真引擎获取多轮演示对抗回放数据,并基于所述对抗回放数据,采用生成对抗网络技术,训练获取神经网络策略模型;
[0007]利用所述神经网络策略模型,模拟所述多智能体在强对抗过程中的决策过程,完成多智能体强对抗仿真。
[0008]根据本专利技术一个实施例的多智能体强对抗仿真方法,所述神经网络策略模型包括判别网络和策略网络;
[0009]其中,所述判别网络用于对输入对抗数据进行分类,所述判别网络的输出用于指示所述输入对抗数据是否符合演示对抗策略;
[0010]所述策略网络用于读取所述强对抗过程的状态数据,并基于所述状态数据,产生在所述状态数据下应采取的对抗策略。
[0011]根据本专利技术一个实施例的多智能体强对抗仿真方法,在所述训练获取神经网络策略模型之前,还包括:
[0012]确定演示样本与模仿样本的判别损失总和,作为所述判别网络的损失,所述判别网络的损失函数表示如下:
[0013]D
loss
=D
loss-expert
+D
loss-learner

[0014]式中,D
loss
表示所述判别网络的损失,D
loss-expert
表示所述判别网络对所述演示样本的实际输出与预期输出的交叉熵,D
loss-learner
表示所述判别网络对所述模仿样本的实际输出与预期输出的交叉熵;
[0015]确定所述判别网络的目标为最小化所述判别损失总和。
[0016]根据本专利技术一个实施例的多智能体强对抗仿真方法,在所述确定演示样本与模仿样本的判别损失总和,作为所述判别网络的损失之前,还包括:
[0017]按如下公式计算所述交叉熵,所述如下公式为:
[0018]l(x,y)=L={l1,...,l
n
,...,l
N
}
T

[0019]l
n
=-w
n
[y
n
·
logx
n
+(1-y
n
)
·
log(1-x
n
)];
[0020]式中,l(x,y)表示向量x与y的交叉熵,定义为向量x与y各个分量的交叉熵组成的向量{l1,...,l
n
,...,l
N
}
T
,l
n
为向量x、y的对应分量x
n
与y
n
的交叉熵,w
n
为分量n的权重,N为向量x、y的维数。
[0021]根据本专利技术一个实施例的多智能体强对抗仿真方法,在所述训练获取神经网络策略模型之前,还包括:
[0022]确定所述策略网络的回报函数如下:
[0023]Reward=-log(D(Π
L
));
[0024]式中,Reward表示所述策略网络的回报,Π
L
表示所述模仿样本,D(Π
L
)表示所述判别网络对所述模仿样本的实际输出与预期输出的交叉熵;
[0025]确定所述策略网络的目标为最大化所述策略网络的回报;
[0026]和/或,确定所述策略网络的损失函数如下:
[0027][0028]式中,pd表示由所述策略网络输出的参数构造的对抗命令参数概率分布,action表示从构造的概率分布取样获得的命令参数取值,log_prob表示概率分布在action取值的样本点的log概率密度,entropy表示概率分布的熵,β表示超参数。
[0029]根据本专利技术一个实施例的多智能体强对抗仿真方法,所述利用所述神经网络策略模型,模拟所述多智能体在强对抗过程中的决策过程,包括:
[0030]基于所述策略网络的输出,构造所述对抗命令参数概率分布,并从所述对抗命令参数概率分布取样获取对抗命令参数;
[0031]按照所述对抗仿真引擎所需的接口格式,将所述对抗命令参数转换为对抗命令列表,并将所述对抗命令列表输入到所述对抗仿真引擎。
[0032]根据本专利技术一个实施例的多智能体强对抗仿真方法,所述判别网络具体为二元分类神经网络,所述二元分类神经网络的输入为联合对抗态状态与对抗命令列表的张量编码,所述二元分类神经网络的输出为[0,1]内的二元分类标量。
[0033]本专利技术还提供一种多智能体强对抗仿真装置,包括:
[0034]训练模块,用于从对抗仿真引擎获取多轮演示对抗回放数据,并基于所述对抗回放数据,采用生成对抗网络技术,训练获取神经网络策略模型;
[0035]仿真模块,用于利用所述神经网络策略模型,模拟所述多智能体在强对抗过程中的决策过程,完成多智能体强对抗仿真。
[0036]本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述处理器执行所述程序或指令时,实现如上述任一种所述的多智能体强对抗仿真方法的步骤。
[0037]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有程序或指令,所述程序或指令被计算机执行时,实现如上述任一种所述的多智能体强对抗仿真方法的步骤。
[0038]本专利技术提供的多智能体强对抗仿真方法、装置及电子设备,通过借助对历史数据的学习,能够加快多智能体强对抗模型的训练速度,从而有效提高运算效率,并有效节约计算资源。
附图说明
[0039]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对本专利技术或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体强对抗仿真方法,其特征在于,包括:从对抗仿真引擎获取多轮演示对抗回放数据,并基于所述对抗回放数据,采用生成对抗网络技术,训练获取神经网络策略模型;利用所述神经网络策略模型,模拟所述多智能体在强对抗过程中的决策过程,完成多智能体强对抗仿真。2.根据权利要求1所述的多智能体强对抗仿真方法,其特征在于,所述神经网络策略模型包括判别网络和策略网络;其中,所述判别网络用于对输入对抗数据进行分类,所述判别网络的输出用于指示所述输入对抗数据是否符合演示对抗策略;所述策略网络用于读取所述强对抗过程的状态数据,并基于所述状态数据,产生在所述状态数据下应采取的对抗策略。3.根据权利要求2所述的多智能体强对抗仿真方法,其特征在于,在所述训练获取神经网络策略模型之前,还包括:确定演示样本与模仿样本的判别损失总和,作为所述判别网络的损失,所述判别网络的损失函数表示如下:D
loss
=D
loss-expert
+D
loss-learner
;式中,D
loss
表示所述判别网络的损失,D
loss-expert
表示所述判别网络对所述演示样本的实际输出与预期输出的交叉熵,D
loss-learner
表示所述判别网络对所述模仿样本的实际输出与预期输出的交叉熵;确定所述判别网络的目标为最小化所述判别损失总和。4.根据权利要求3所述的多智能体强对抗仿真方法,其特征在于,在所述确定演示样本与模仿样本的判别损失总和,作为所述判别网络的损失之前,还包括:按如下公式计算所述交叉熵,所述如下公式为:l(x,y)=L={l1,...,l
n
,...,l
N
}
T
;l
n
=-w
n
[y
n
·
logx
n
+(1-v
n
)
·
log(1-x
n
)];式中,l(x,y)表示向量x与y的交叉熵,定义为向量x与y各个分量的交叉熵组成的向量{l1,...,l
n
,...,l
N
}
T
,l
n
为向量x、y的对应分量...

【专利技术属性】
技术研发人员:白桦王群勇孙旭朋
申请(专利权)人:北京圣涛平试验工程技术研究院有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1