多智能体对抗神经网络训练方法及装置制造方法及图纸

技术编号:27319398 阅读:36 留言:0更新日期:2021-02-10 09:57
本发明专利技术提供一种多智能体对抗神经网络训练方法及装置,该方法包括:对影响智能体的RMS指标进行分析,提取影响总体性能的关键指标,并确定关键指标的取值;采用蒙特卡洛方法,模拟多智能体在关键指标情况下的实际状态;根据实际状态,对构建的多智能体对抗神经网络进行训练。该方法在可靠性、维修性、保障性参数的约束下,在不改变原有的神经网络结构下,进行神经网络的参数优化,使其能够在多智能体出现可靠性问题时,仍能够达到较为理想的性能。本发明专利技术可以提高多智能体对抗神经网络的健壮性或鲁棒性,在面对实际物理世界中代理可能发生的故障和维修等场景,采用本发明专利技术进行训练的神经网络具有更高的系统性能,降低代理故障对于系统性能的影响。统性能的影响。统性能的影响。

【技术实现步骤摘要】
多智能体对抗神经网络训练方法及装置


[0001]本专利技术涉及机器学习
,尤其涉及一种多智能体对抗神经网络训练方法及装置。

技术介绍

[0002]多智能体控制体系增强学习建模时,输入条件中的智能体数量和性能通常是已知的,以此为约束条件进行网络参数优化,以得到效能最好的控制模型。智能网络通过控制信号对多智能体进行控制,使其成为一个整体并且效能最优。
[0003]但是,物理世界中的智能体并非理想的智能体,需要进行维修和维护,或者在执行任务时出现故障,不能执行正常的功能,原约束条件已不在成立,由此建立的控制模型并非效能最高的。

技术实现思路

[0004]针对现有技术存在的问题,本专利技术提供一种多智能体对抗神经网络训练方法及装置。
[0005]本专利技术提供一种多智能体对抗神经网络训练方法,包括:对影响智能体的可靠性、维修性和保障性指标进行分析,提取影响总体性能的关键指标,并确定关键指标的取值;每次训练时,采用蒙特卡洛方法,模拟多智能体在所述关键指标情况下的实际状态;根据所述实际状态,对构建的多智能体对抗神经网络进行训练。
[0006]根据本专利技术一个的多智能体对抗神经网络训练方法,所述根据所述实际状态,对构建的多智能体对抗神经网络进行训练,包括:根据所述实际状态,确定输入环境变量,以回报最大化为目标,对构建的多智能体强对抗神经网络进行训练。
[0007]根据本专利技术一个的多智能体对抗神经网络训练方法,所述多智能体为执行任务的飞机集群,相应地:所述多智能体对抗神经网络,用于评估所述飞机集群任务成功率;所述关键指标,包括:飞机的失效率、战备完好率和通信中断率。
[0008]根据本专利技术一个的多智能体对抗神经网络训练方法,所述采用蒙特卡洛方法,模拟多智能体在所述关键指标情况下的实际状态,包括:根据飞机总架数和战备完好率,采用蒙特卡洛方法,确定能出动的飞机架数。
[0009]根据本专利技术一个的多智能体对抗神经网络训练方法,所述采用蒙特卡洛方法,模拟多智能体在所述关键指标情况下的实际状态,还包括:根据能出动的飞机架数和飞机失效率,采用蒙特卡洛方法,确定故障飞机,并将故障飞机移除,得到可执行任务的飞机架数。
[0010]根据本专利技术一个的多智能体对抗神经网络训练方法,所述采用蒙特卡洛方法,模拟多智能体在所述关键指标情况下的实际状态,还包括:根据可执行任务的飞机架数和通信中断率,采用蒙特卡洛方法,确定通信异常的飞机。
[0011]根据本专利技术一个的多智能体对抗神经网络训练方法,所述根据所述实际状态,对构建的多智能体对抗神经网络进行训练,包括:以可执行任务的飞机和通信正常的飞机,作
为输入环境变量,以任务成功率最高为目标,对构建的多智能体强对抗神经网络进行训练。
[0012]本专利技术还提供一种多智能体对抗神经网络训练装置,包括:指标确定模块,用于对影响智能体的可靠性、维修性和保障性指标进行分析,提取影响总体性能的关键指标,并确定关键指标的取值;状态确定模块,用于每次训练时,采用蒙特卡洛方法,模拟多智能体在所述关键指标情况下的实际状态;网络训练模块,用于根据所述实际状态,对构建的多智能体对抗神经网络进行训练。
[0013]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述多智能体对抗神经网络训练方法的步骤。
[0014]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述多智能体对抗神经网络训练方法的步骤。
[0015]本专利技术提供的多智能体对抗神经网络训练方法及装置,在可靠性、维修性、保障性参数的约束下,在不改变原有的神经网络结构下,进行神经网络的参数优化,使其能够在多智能体出现可靠性问题时,仍能够达到较为理想的性能。本专利技术可以提高多智能体对抗神经网络的健壮性或鲁棒性,在面对实际物理世界中代理可能发生的故障和维修等场景,采用本专利技术进行训练的神经网络具有更高的系统性能,降低代理故障对于系统性能的影响。
附图说明
[0016]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术提供的多智能体对抗神经网络训练方法的流程示意图;
[0018]图2是本专利技术提供的蒙特卡罗仿真计算流程图;
[0019]图3是本专利技术提供的基于RMS训练后的对比图;
[0020]图4是本专利技术提供的优化性能对比图;
[0021]图5是本专利技术提供的多智能体对抗神经网络训练装置的结构示意图;
[0022]图6是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0023]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]系统建模与仿真技术是以相似原理、模型理论系统技术、信息技术以及建模与仿真应用领域的有关专业技术为基础,以计算机系统、与应用有关的物理效应设备及仿真器为工具,利用模型对系统(已有的或设想的)进行研究、分析、评估、决策或参与系统运行的一门多学科的综合性技术。典型的系统建模与仿真过程包括系统模型建立、仿真模型建立、仿真程序设计、仿真试验和数据分析处理等,涉及多学科多领域的知识与经验。
[0025]在对抗性游戏引擎设法方面,系统仿真技术建立的计算机模型可以模拟人的游戏行为与人类玩家进行实时对抗。人类玩家还可以根据自身的游戏水平,选择相应难度的仿真程序进行对抗。人类玩家希望计算机程序即能够匹配自身的游戏水平,又希望游戏的模型能够有一定的“智能”水平,避免千篇一律的战略战术。
[0026]在军用领域,仿真技术已经成为武器装备研制与试验中的先导技术、校验技术和分析技术。当前,现代建模与仿真在技术上正向以“数字化、虚拟化、网络化、智能化、集成化、协同化”为特征的方向发展;在军事领域,军用建模与仿真技术是服务于武器装备发展论证和决策、型号研制、鉴定定型、训练使用、维护保障、作战应用和武器装备采办等领域。建模与仿真技术中的体系仿真技术、武器装备研制仿真技术、基于仿真的虚拟采办及虚拟样机技术、虚拟战场技术、智能化建模仿真技术和仿真网络等的综合运用,已成功地在深度和广度上扩展了仿真技术的应用域,仿真技术和仿真系统在各应用领域都发挥了巨大的作用。
[0027]多智能体建模方法,是基于人工智能和组织行为学的一种模型理论,MAS(Multi Agent System,多智能体系统)与具体领域数学模型研究相结合,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体对抗神经网络训练方法,其特征在于,包括:对影响智能体的可靠性、维修性和保障性指标进行分析,提取影响总体性能的关键指标,并确定关键指标的取值;每次训练时,采用蒙特卡洛方法,模拟多智能体在所述关键指标情况下的实际状态;根据所述实际状态,对构建的多智能体对抗神经网络进行训练。2.根据权利要求1所述的多智能体对抗神经网络训练方法,其特征在于,所述根据所述实际状态,对构建的多智能体对抗神经网络进行训练,包括:根据所述实际状态,确定输入环境变量,以回报最大化为目标,对构建的多智能体强对抗神经网络进行训练。3.根据权利要求1所述的多智能体对抗神经网络训练方法,其特征在于,所述多智能体为执行任务的飞机集群,相应地:所述多智能体对抗神经网络,用于评估所述飞机集群任务成功率;所述关键指标,包括:飞机的失效率、战备完好率和通信中断率。4.根据权利要求3所述的多智能体对抗神经网络训练方法,其特征在于,所述采用蒙特卡洛方法,模拟多智能体在所述关键指标情况下的实际状态,包括:根据飞机总架数和战备完好率,采用蒙特卡洛方法,确定能出动的飞机架数。5.根据权利要求4所述的多智能体对抗神经网络训练方法,其特征在于,所述采用蒙特卡洛方法,模拟多智能体在所述关键指标情况下的实际状态,还包括:根据能出动的飞机架数和飞机失效率,采用蒙特卡洛方法,确定故障飞机,并将故障飞机移除,得到可执行任...

【专利技术属性】
技术研发人员:白桦王群勇孙旭朋
申请(专利权)人:北京圣涛平试验工程技术研究院有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1