多智能体强化学习方法及装置、电子设备、存储介质制造方法及图纸

技术编号：41403925 阅读：12 留言：0更新日期：2024-05-20 19:29

本公开提供了一种多智能体强化学习方法及装置、电子设备、存储介质，属于超图表示学习技术领域，该方法包括：基于多智能体系统中各个智能体的观测信息生成多条超边。每条超边连接多个智能体，多条超边组成超图结构。超图结构为多智能体系统对应的通信结构。基于各个智能体的观测信息计算多智能体之间的消息权重。基于通信结构和消息权重生成多智能体系统对应的关联度。基于关联度对各个智能体的通信信息进行融合，得到每个智能体对应的融合通信信息。融合通信信息用于指导对应智能体的动作。本公开提供的多智能体强化学习方法及装置、电子设备、存储介质能对多个来自不同智能体的异构信息进行通信融合。

全部详细技术资料下载

【技术实现步骤摘要】

本公开属于超图表示学习，更具体地说，是涉及一种多智能体强化学习方法及装置、电子设备、存储介质。

技术介绍

1、同构智能体指的是具有相同功能和能力的智能体，其在协作任务中执行类似的任务和行为。而异构智能体指的是在协作任务中，智能体之间具有不同的功能、能力或特性。不同智能体之间可能拥有不同的传感器、执行器，或者具备不同的知识、经验和决策策略。在同构智能体协作中，由于智能体具有相似的功能和能力，信息交流可以更加简化和统一。而在异构智能体协作中，由于智能体之间的功能差异，信息交流可能需要进行更复杂的处理，不同类型的智能体可能使用不同的通信方式、传输协议或编码规则。在目前现有的技术中，尚未充分考虑通信的动态性质和智能体连接之间的相关性，异构智能体之间的消息理解和融合仍然是一个有待解决的问题，导致智能体难以学习到有用的协作策略。因此，亟需一种多智能体强化学习方法及装置、电子设备、存储介质。

技术实现思路

1、本公开的目的在于提供一种多智能体强化学习方法及装置、电子设备、存储介质，以提高异构多智能体对异构信息的处理和融合能力。

2、本公开实施例的第一方面，提供了一种多智能体强化学习方法，包括：

3、基于多智能体系统中各个智能体的观测信息生成多条超边。每条超边连接多个智能体，所述多条超边组成超图结构。所述超图结构为所述多智能体系统对应的通信结构。

4、基于各个智能体的观测信息计算多智能体之间的消息权重。

5、基于所述通信结构和所述消息权重生成所述多智能体系统对应的关联度。

6、基于所述关联度对各个智能体的通信信息进行融合，得到每个智能体对应的融合通信信息。所述融合通信信息用于指导对应智能体的动作。

7、本公开实施例的第二方面，提供了一种多智能体强化学习装置，包括：

8、超图生成模块，用于基于多智能体系统中各个智能体的观测信息生成多条超边；每条超边连接多个智能体，所述多条超边组成超图结构；所述超图结构为所述多智能体系统对应的通信结构；

9、消息权重计算模块，用于基于各个智能体的观测信息计算多智能体之间的消息权重；

10、关联度生成模块，用于基于所述通信结构和所述消息权重生成所述多智能体系统对应的关联度；

11、信息融合模块，用于基于所述关联度对各个智能体的通信信息进行融合，得到每个智能体对应的融合通信信息；所述融合通信信息用于指导对应智能体的动作。

12、本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的多智能体强化学习方法的步骤。

13、本公开实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的多智能体强化学习方法的步骤。

14、本公开实施例提供的多智能体强化学习方法及装置、电子设备、存储介质的有益效果在于：

15、第一，本实施例提供的多智能体强化学习方法能够根据生成的超图结构，计算多智能体之间的关联度，得到多智能体之间的消息权重，从而捕获多智能体之间潜在的、更复杂、更高阶的交互和依赖关系。

16、第二，本实施例提供的多智能体强化学习方法能够克服多个异构智能体之间的功能差异，通过强化学习方法对多个来自不同智能体的异构信息进行通信融合，得到最终的融合通信信息，根据该融合通信信息从而执行下一步对应的动作，提高多智能体之间的信息交流效率。

本文档来自技高网...

【技术保护点】

1.一种多智能体强化学习方法，其特征在于，包括：

2.如权利要求1所述的多智能体强化学习方法，其特征在于，所述基于多智能体系统中各个智能体的观测信息生成多条超边，包括：

3.如权利要求2所述的多智能体强化学习方法，其特征在于，所述基于多智能体的观测信息和历史动作预测各个智能体的意图信息，包括：

4.如权利要求2所述的多智能体强化学习方法，其特征在于，所述基于多智能体的观测信息对多智能体进行聚类，将属于同一分类的多智能体划分至同一超边，得到多条第二超边，包括：

5.如权利要求1所述的多智能体强化学习方法，其特征在于，所述基于各个智能体的观测信息计算多智能体之间的消息权重，包括：

6.如权利要求1所述的多智能体强化学习方法，其特征在于，所述通信结构为一通信矩阵；所述基于所述通信结构和所述消息权重生成所述多智能体系统对应的关联度，包括：

7.如权利要求6所述的多智能体强化学习方法，其特征在于，所述基于所述关联度对各个智能体的通信信息进行融合，得到每个智能体对应的融合通信信息，包括：

8.一种多智能体强化

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种多智能体强化学习方法，其特征在于，包括：

2.如权利要求1所述的多智能体强化学习方法，其特征在于，所述基于多智能体系统中各个智能体的观测信息生成多条超边，包括：

3.如权利要求2所述的多智能体强化学习方法，其特征在于，所述基于多智能体的观测信息和历史动作预测各个智能体的意图信息，包括：

5.如权利要求1所述的多智能体强化学习方法，其特征在于，所述基于各个智能体的观测信息计算多智能体之间的消息权重，包括：

6.如权利要求1所述的多智能体强化学习方法，其...

【专利技术属性】
技术研发人员：胡成，何召锋，刘文军，程祥，项刘宇，吴惠甲，孟宪奎，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人