【技术实现步骤摘要】
本申请涉及人工智能,特别涉及一种基于模块化网络的合作智能体模型、学习方法和装置。
技术介绍
1、近年来,多智能体强化学习(multi-agent reinforcement learning, marl)引起了越来越多研究者的兴趣,因为它可以帮助建模许多现实世界的合作问题,如合作游戏、交通灯控制和机器人车队协调问题。然而,在如此复杂的合作任务中学习有效的协调策略十分具有挑战性,因为算法需要在巨大的联合行动状态空间中进行探索,而随着智能体数量的增加,联合行动状态空间呈指数级增长。
2、为了提高训练的效率和算法的可扩展性,相关技术中,marl工作主要采用参数共享技术。参数共享确实有利于marl的训练,因为它大大减少了可训练参数的总数,降低了训练的复杂度。更重要的是,合作中的智能体的经验和知识可以通过这种共享被其他智能体重用。然而,尽管这些优点使得参数共享在marl中很流行,让所有智能体共享相同的参数也会产生负面影响。首先,参数共享的智能体之间的相互影响尚不清楚,因此在使用参数共享时,优化一些智能体可能会对其他智能体带来负面影响。
...【技术保护点】
1.一种基于模块化网络的合作智能体模型,其特征在于,所述合作智能体模型包括基础网络模块以及门控信息提取模块;其中,所述基础网络模块是由多个神经网络单元通过全连接的方式构成的,所述神经网络单元之间的每一个连接的权重作为不同合作智能体在所述合作智能体模型中的一个门控单元;
2.一种基于模块化网络的合作智能体学习方法,其特征在于,所述方法应用于权利要求1所述的合作智能体模型,所述方法包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述门控信息提取模块包括至少一个多层感知器;
...【技术特征摘要】
1.一种基于模块化网络的合作智能体模型,其特征在于,所述合作智能体模型包括基础网络模块以及门控信息提取模块;其中,所述基础网络模块是由多个神经网络单元通过全连接的方式构成的,所述神经网络单元之间的每一个连接的权重作为不同合作智能体在所述合作智能体模型中的一个门控单元;
2.一种基于模块化网络的合作智能体学习方法,其特征在于,所述方法应用于权利要求1所述的合作智能体模型,所述方法包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述门控信息提取模块包括至少一个多层感知器;
5.根据权利要求4所述的方法,其特征在于,所述根据所述融合特征,利用所述至少一个多层...
【专利技术属性】
技术研发人员:黄凯奇,张俊格,于杨,尹奇跃,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。