基于异质关系的多智能体对抗策略生成方法及相关装置制造方法及图纸

技术编号：41157154 阅读：4 留言：0更新日期：2024-04-30 18:21

本发明专利技术公开一种基于异质关系的多智能体对抗策略生成方法及相关装置，涉及多智能体对抗博弈领域，方法包括：基于各智能体间的异质关系和各智能体的空间拓扑结构，构建各个智能体的态势关系图；随后基于一智能体的态势关系图，确定出智能体的局部态势信息融合向量；最后利用预先训练好的智能体的对抗策略生成模型，根据智能体的局部态势信息融合向量作出合适的对抗策略，本发明专利技术在空间拓扑结构的基础上，考虑了各智能体之间的异质关系来生成态势关系图，使得决策生成模型能够更好理解智能体之间的态势关系，可适应智能体间博弈态势动态变化的条件，更准确的表达博弈态势，提高了生成模型对博弈态势的理解和适应能力，保障了生成的对抗策略的有效性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体对抗博弈领域，特别是涉及一种基于异质关系的多智能体对抗策略生成方法及相关装置。

技术介绍

1、对抗策略学习算法在多智能体强化学习领域具有重要的理论研究与应用价值。处于博弈中的多智能体间往往既需要协同合作以实现共同目标，又需要在竞争中保护个体利益。通过博弈间的对抗策略学习能够帮助智能体在合作和竞争之间寻找平衡，通过对抗策略的实时调整，适应博弈环境的动态变化，从而保持系统的效率和稳定性，提高系统整体性能。相关理论方法和技术手段能够应用到网络安全、智慧金融、智能交通、军事战略等诸多领域。

2、然而，一方面博弈的智能体间存在异质性，不同智能体之间可能具有不同的目标和策略，这种异质性关系使得博弈态势更加多样化和复杂，智能体需要同时考虑各种异质性因素，增加了理解博弈环境的难度；另一方面博弈环境往往是动态变化的，各智能体的行为和状态可能不断演变，在策略学习过程中需要不断适应这种变化，而动态性使得博弈态势的稳定性和可预测性下降。

3、目前的研究方法主要侧重于多智能体空间拓扑结构表达，以此来帮助理解和分析博弈智能体间的相互作用。而传统的空间拓扑结构采用固定邻域的假设，只能表达智能体只与其邻域内的智能体的博弈态势，这在某些情况下可能过于简化，无法捕捉全局态势的重要关系，只考虑智能体在某个局部邻域内的关系，还会导致全局态势的建模和理解受到限制。

4、综上所述，目前的多智能体博弈对抗技术忽略了博弈的智能体间的异质关系类型，造成实际应用中对整个博弈态势的表达不准确的问题。

<b>技术实现思路

1、本专利技术的目的是提供一种基于异质关系的多智能体对抗策略生成方法及相关装置，提高了生成模型对博弈态势的理解，保障了所生成的对抗策略的有效性。

2、为实现上述目的，本专利技术提供了如下方案：

3、一方面，本专利技术提供了一种基于异质关系的多智能体对抗策略生成方法，包括以下步骤：

4、针对任一智能体，基于智能体与其他智能体之间的异质关系和各智能体的空间拓扑结构，构建智能体的态势关系图；异质关系包括协作关系和竞争关系；态势关系图中包括态势关系邻接矩阵和态势关系特征矩阵；态势关系邻接矩阵表征智能体与其他智能体之间的异质关系；态势关系特征矩阵表征各智能体的局部观测信息。

5、基于智能体的态势关系图，确定智能体的局部态势信息融合向量；局部态势信息融合向量为根据智能体的最临近协作智能体的局部观测信息和智能体的最临近竞争智能体的局部观测信息得到；最临近协作智能体为与智能体的异质关系为协作关系且与智能体的空间距离最近的智能体；最临近竞争智能体为与智能体的异质关系为竞争关系且与智能体的空间距离最近的智能体。

6、将智能体的局部态势信息融合向量输入到智能体的对抗策略生成模型中，得到智能体的对抗策略；对抗策略生成模型为对所有智能体的初始对抗策略生成模型和所有智能体的初始联合策略评估模型进行集中训练后得到的模型；联合策略评估模型用于根据智能体的全局态势信息融合向量对联合对抗策略向量进行评分；联合对抗策略向量为联合所有智能体的对抗策略生成模型作出的对抗策略得到的向量。

7、可选地，智能体的对抗策略生成模型的训练过程包括：

8、初始化智能体的对抗策略生成模型的模型参数和智能体的联合策略评估模型的模型参数，得到智能体的初始对抗策略生成模型和智能体的初始联合策略评估模型。

9、将智能体的初始对抗策略生成模型作为当前对抗策略生成模型，并将智能体的初始联合策略评估模型作为当前联合策略评估模型。

10、根据当前对抗策略生成模型和当前联合策略评估模型，计算联合策略评估模型的损失函数值和对抗策略生成模型的梯度值。

11、根据联合策略评估模型的损失函数值，通过梯度下降算法更新联合策略评估模型的模型参数，得到中间联合策略评估模型。

12、根据对抗策略生成模型的梯度值，通过梯度上升算法更新对抗策略生成模型的模型参数，得到中间对抗策略生成模型。

13、判断是否满足预设训练结束条件，得到训练结束判断结果。

14、若训练结束判断结果为是，则将中间对抗策略生成模型作为智能体的对抗策略生成模型，并将中间联合策略评估模型作为智能体的联合策略评估模型。

15、若训练结束判断结果为否，则将中间对抗策略生成模型作为当前对抗策略生成模型，将中间联合策略评估模型作为当前联合策略评估模型，并跳转至步骤：根据当前对抗策略生成模型和当前联合策略评估模型，计算联合策略评估模型的损失函数值和对抗策略生成模型的梯度值，直到满足预设训练结束条件。

16、可选地，针对任一智能体，基于智能体与其他智能体之间的异质关系和各智能体的空间拓扑结构，构建智能体的态势关系图，具体包括：

17、初始化智能体的态势关系图，得到智能体的初始态势关系图；

18、根据智能体与其他智能体之间的异质关系和所有智能体的局部观测信息，更新智能体的初始态势关系图，得到智能体的态势关系图。

19、可选地，态势关系图包括态势关系邻接矩阵和态势关系特征矩阵；初始化智能体的态势关系图，具体包括：

20、将态势关系邻接矩阵中的数据置零，并将态势关系特征矩阵中的数据置零，得到智能体的初始态势关系图。

21、另一方面，本专利技术提供了一种计算机设备，包括：存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现前文所述的一种基于异质关系的多智能体对抗策略生成方法的步骤。

22、根据本专利技术提供的具体实施例，本专利技术公开了以下技术效果：

23、本专利技术提供了一种基于异质关系的多智能体对抗策略生成方法及相关装置，方法包括以下步骤：基于各智能体之间的异质关系和各智能体的空间拓扑结构，构建各个智能体的态势关系图；随后基于一智能体的态势关系图，确定出智能体的局部态势信息融合向量；最后利用预先训练好的智能体的对抗策略生成模型，根据智能体的局部态势信息融合向量作出合适的对抗策略。本专利技术在空间拓扑结构的基础上，考虑了各智能体之间的异质关系来生成态势关系图，使得决策生成模型能够更好理解智能体之间的态势关系，与仅通过空间拓扑进行态势理解的方案相比，本专利技术的方案可适应智能体间博弈态势动态变化的条件，更准确的表达博弈态势，提高了生成模型对博弈态势的理解和适应能力，并指导智能体对抗策略生成模型生成有效的对抗策略，帮助智能体达到博弈对抗平衡。

本文档来自技高网...

【技术保护点】

1.一种基于异质关系的多智能体对抗策略生成方法，其特征在于，包括：

2.根据权利要求1所述的基于异质关系的多智能体对抗策略生成方法，其特征在于，智能体的态势关系图的表达式如下式所示：

3.根据权利要求1所述的基于异质关系的多智能体对抗策略生成方法，其特征在于，根据下式确定智能体的局部态势信息融合向量：

4.根据权利要求1所述的基于异质关系的多智能体对抗策略生成方法，其特征在于，智能体的对抗策略生成模型的表达式如下式所示：

5.根据权利要求1所述的基于异质关系的多智能体对抗策略生成方法，其特征在于，智能体的联合策略评估模型的表达式如下式所示：

6.根据权利要求5所述的基于异质关系的多智能体对抗策略生成方法，其特征在于，根据下式确定智能体的全局态势信息融合向量：

7.根据权利要求1所述的基于异质关系的多智能体对抗策略生成方法，其特征在于，智能体的对抗策略生成模型的训练过程包括：

8.根据权利要求1所述的基于异质关系的多智能体对抗策略生成方法，其特征在于，针对任一智能体，基于所述智能体与其他智能体之间的

9.根据权利要求8所述的基于异质关系的多智能体对抗策略生成方法，其特征在于，所述态势关系图包括态势关系邻接矩阵和态势关系特征矩阵；初始化所述智能体的态势关系图，具体包括：

10.一种计算机设备，包括：存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-9中任一项所述基于异质关系的多智能体对抗策略生成方法的步骤。

...

【技术特征摘要】