一种基于模块化网络的合作智能体模型、学习方法和装置制造方法及图纸

技术编号：39976226 阅读：22 留言：0更新日期：2024-01-09 01:10

本申请实施例提供一种基于模块化网络的合作智能体模型、学习方法和装置。其中，基于模块化网络的合作智能体学习方法包括：根据合作智能体的观测信息表征数据和身份信息表征数据，利用门控信息提取模块，得到基础网络模块中各个门控单元的门控数据信息；将门控数据信息代入基础网络模块的各个门控单元，利用基础网络模块，处理合作智能体的观测信息表征数据，得到智能体在当前时刻的动作价值函数；根据所有合作智能体的在当前时刻的动作价值函数，执行端到端的训练，更新合作智能体模型的参数，直至达到训练结束条件，得到训练后的合作智能体模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别涉及一种基于模块化网络的合作智能体模型、学习方法和装置。

技术介绍

1、近年来，多智能体强化学习（multi-agent reinforcement learning, marl）引起了越来越多研究者的兴趣，因为它可以帮助建模许多现实世界的合作问题，如合作游戏、交通灯控制和机器人车队协调问题。然而，在如此复杂的合作任务中学习有效的协调策略十分具有挑战性，因为算法需要在巨大的联合行动状态空间中进行探索，而随着智能体数量的增加，联合行动状态空间呈指数级增长。

2、为了提高训练的效率和算法的可扩展性，相关技术中，marl工作主要采用参数共享技术。参数共享确实有利于marl的训练，因为它大大减少了可训练参数的总数，降低了训练的复杂度。更重要的是，合作中的智能体的经验和知识可以通过这种共享被其他智能体重用。然而，尽管这些优点使得参数共享在marl中很流行，让所有智能体共享相同的参数也会产生负面影响。首先，参数共享的智能体之间的相互影响尚不清楚，因此在使用参数共享时，优化一些智能体可能会对其他智能体带来负面影响。...

【技术保护点】

1.一种基于模块化网络的合作智能体模型，其特征在于，所述合作智能体模型包括基础网络模块以及门控信息提取模块；其中，所述基础网络模块是由多个神经网络单元通过全连接的方式构成的，所述神经网络单元之间的每一个连接的权重作为不同合作智能体在所述合作智能体模型中的一个门控单元；

2.一种基于模块化网络的合作智能体学习方法，其特征在于，所述方法应用于权利要求1所述的合作智能体模型，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述门控信息提取模块包括至少一个多层感知器；p>

5.根据权...

【技术特征摘要】

2.一种基于模块化网络的合作智能体学习方法，其特征在于，所述方法应用于权利要求1所述的合作智能体模型，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述门控信息提取模块包括至少一个多层感知器；

5.根据权利要求4所述的方法，其特征在于，所述根据所述融合特征，利用所述至少一个多层...

【专利技术属性】
技术研发人员：黄凯奇，张俊格，于杨，尹奇跃，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人