一种基于多头注意力机制通信的多智能体强化学习算法制造技术

技术编号:37960881 阅读:21 留言:0更新日期:2023-06-30 09:35
本发明专利技术公开了一种基于多头注意力机制通信的多智能体强化学习算法,涉及智能体强化学习技术领域。本发明专利技术采用多头注意力机制实现智能体间高效通信,获取重要信息,信息用于智能体的即时决策;采用中心化训练分布式执行范式,使用Critic网络从整体角度评估策略价值,提升决策质量,在执行时智能体根据训练好的Actor网络独自执行最优动作,达成多智能体的高水平协同合作;使用目标网络实现模型软更新,避免策略价值过高估计,平稳训练过程。本发明专利技术解决了分布式训练多智能体强化学习算法训练不稳定与难以合作的问题,在多智能体合作任务方面有很好应用前景。务方面有很好应用前景。务方面有很好应用前景。

【技术实现步骤摘要】
一种基于多头注意力机制通信的多智能体强化学习算法


[0001]本专利技术涉及智能体强化学习
,尤其是涉及一种基于多头注意力机制通信的多智能体强化学习算法。

技术介绍

[0002]近年来,强化学习在目标检测、医疗诊断、自动化控制等诸多领域应用越来越广泛,与此同时,如何在视野范围有限的情景中,实现多个智能体的协同合作仍然是尚待解决的一个关键问题。
[0003]传统多智能体强化学习算法如IQL等,每个智能体将其他智能体视为环境的一部分,独立训练。然而,在这种模式下智能体很难学会相互协作。

技术实现思路

[0004]本专利技术的目的在于提供一种基于多头注意力机制通信的多智能体强化学习算法,以解决现有技术中上述的技术问题。
[0005]本专利技术提供一种基于多头注意力机制通信的多智能体强化学习算法,包括:
[0006]问题建模,所述问题建模的元组为(N,S,O,A,P,R,γ);
[0007]其中,N={1,...,n},表示智能体的集合;
[0008]S表示所有可能的全局状态;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多头注意力机制通信的多智能体强化学习算法,其特征在于,包括:问题建模,所述多智能体合作问题建模的元组为(N,S,O,A,P,R,γ);其中,N={1,...,n},表示智能体的集合;S表示所有可能的全局状态;表示每个智能体本地观测空间的乘积,即联合观测空间;表示联合动作空间,其中,A
i
表示智能体i所能选择的动作集合;P表示环境的转移概率函数;R表示全局的奖励函数;γ∈[0,1],表示折扣因子;通讯机制,所述通讯机制用于多智能体信息交流,进一步把握环境状态,以促进彼此合作,提升决策质量;训练框架,所述训练框架用于多智能体的强化学习;算法。2.根据权利要求1所述的一种基于多头注意力机制通信的多智能体强化学习算法,其特征在于,所述算法包括:整体架构;基于注意力机制的消息通信;基于多头注意力机制的消息通信;训练与更新。3.根据权利要求2所述的一种基于多头注意力机制通信的多智能体强化学习算法,其特征在于,所述整体架构包括以下步骤:步骤一:在每个时间步t,智能体i得到对环境状态的本地局部观测步骤二:上述观测首先经过一个多层感知器(MLP)进行编码,得到对于环境局部观测的表征,记作步骤三:传入一个长短时记忆网络(LSTM),并得到智能体i的隐藏状态作为输出,其中,是LSTM网络的单元状态;步骤四:连接局部观测的表征与LSTM输出的隐藏状态,得到智能体i的状态表征步骤四:连接局部观测的表征与LSTM输出的隐藏状态,得到智能体i的状态表征步骤五:随后传入消息通信模块;步骤六:消息通信模块输出步骤七:智能体i根据聚合信息选择当前时刻的最佳动作动作输出4.根据权利要求2所述的一种基于多头注意力机制通信的多智能体强化学习算法,其特征在于,所述基于注意力机制的消息通信包括以下步骤:步骤一:通过查询query与关键字key来进行权重分配,权重矩阵W
Q
与W
K
分别与智能体的状态表征相乘,将其映射到查询与关键字空间,得到与其中,
步骤二:智能体i为了评估智能体j的消息对自身的重要性,给消息分配一个标量权重步骤二:智能体i为了评估智能体j的消息对自身的重要性,给消息分配一个标量权重步骤三:利用softmax函数对智能体i接收的所有消息的权重进行归一化,缩放权重步骤四:得到智能体i给所有消息分配的注意力权重步骤四:得到智能体i给所有消息分配的注意力权重步骤五:消息内容通过权重矩阵W
V
与智能体的状态表征相乘生成,智能体i将注意力权重与对应消息内容相结合,得到最终处理后的聚合信息与对应消息内容相结合,得到最终处理后的聚合信息5.根据权利要求2所述的一种基于多头注意力机...

【专利技术属性】
技术研发人员:黄继风董仁智
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1