【技术实现步骤摘要】
一种促进多智能体协作性的通讯强化学习算法
[0001]本专利技术属于多智能体协作与竞争领域,涉及一种基于深度学习的多智能体通讯强化学习算法。
技术介绍
[0002]合作多智能体强化学习(MARL)正变得越来越流行,并已应用于许多领域,例如自动驾驶汽车团队、机器人群控制和无人驾驶飞行器等。人类社会可以实现高效协作,因为当一个团队处理一个复杂的问题时,他们会通过交流通信将不同的任务分配给不同的人实现分工协作,这也是通用人工智能的基础。实际上,人类社会可以被视为一个大规模的只能观测到部分信息的多智能体系统,其中许多自动化的协作任务将会使处理合作任务的效率提高。因此在大规模多智能体合作任务的系统中提高算法性能的关键是如何通过提高智能体之间的通信效率促进智能体间的合作。
[0003]在现实世界中,多智能体系统中通常包含不同类型和大量的智能体。这些复杂交互的智能体给策略学习带来了极大的困难,尤其是当智能体只能获得部分观测并且面临需要协作和同步的任务时。通信组件是多智能体系统学习协调行为的核心组成部分之一,它在多智能体系统中引起了 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的多智能体通讯强化学习算法,其特征在于包括如下步骤:步骤(1)模型与环境进行交互获得每一时刻的全局状态和每个智能体的局部观测信息;步骤(2):训练动作语义表征编码模型,使用动作表征编码来分解智能体的动作空间;步骤(3):智能体选择顶层策略,智能体通过沟通提取智能体之间的关系选择角色,从而达到分工合作的目的;步骤(4):智能体根据顶层策略在子动作空间中选择适当的行动;步骤(5):将上述所有组件综合成一个协同学习框架,并采用端到端的训练方式优化损失函数。2.根据权利要求1所述的一种基于深度学习的多智能体通讯强化学习算法,其特征在于:所述步骤(2),包括以下步骤:(2.1)训练参数为θ
e
的动作编码器f
e
(
·
;θ
e
);编码器的输入是智能体i采取的离散的动作编码a
i
,输出是连续的d维动作表示z
ai
;(2.2)给定智能体i的当前时间步本地局部观测o
i
和所有其他智能体在当前时间步选择的动作表示z
ai
同时作为输入传递给观察预测器p
o
和奖励预测器p
r
,以分别预测下一时间步的局部观测和环境的奖励;(2.3)将θ
e
参数化的动作编码器f
e
,和由ξ
e
参数化的观测预测器p
o
和奖励预测器p
r
同时进行更新,通过最小化以下损失函数进行端到端训练:其中D是经验重放缓冲区,是智能体i的预测下一次局部部分观测,是预测的收到的奖励,o
′
i
是智能体真实的下一时间步的局部观察,r是真实的收到的环境奖励;缩放因子λ
e
平衡了预测下一次局部观测的误差和预测收到的回报的误差;(2.4)训练的f
e
被用于将所有动作编码为其对应的动作表征,训练完成后动作编码器f
e
中的网络权重参数在接下来的动作Q值训练过程中被固定住,不进行更新;(2.5)将智能体的所有可执行的动作输入至动作编码器获得每个不同的动作表征,使用k均值聚类方法通过测量动作表征的欧氏距离将智能体的整个动作空间划分为k组,不同的组具有不同的子动作空间,数字k是一个超参数;动作分组后,训练开始;智能体根据局部观测和其他智能体的消息选择高层策略,即选择k组子动作空间中的一个;在训练过程中,每组子动作空间的动作表征保持固定。3.根据权利要求2所述的一种基于深度学习的多智能体通讯强化学习算法,其特征在于:所述步骤(3)包括以下步骤:(3.1)构建一个包含一层线性层和一层记忆单元网络的顶层策略观测编码器,将智能体的局部观测O和循环网络记忆单元中隐藏状态h同时输入进循环网络单元中编码输出为向量hτ;(3.2)在顶层策略网络中设置由χ参数化的多轮通信器;通信轮数被视为超参数;在通信结构中使用基于键值的自注意力机制,每个通信器由两个组件组成:发送器和接收器;
(3.3)每个智能体通过发送器生成消息,通过接收器接收和处理其他智能体的消息;智能体的通信器将观测编码hτ和消息作为输入发送给其他智能体,并通过注意力模块抽象智能体之间的关系,最后将其他智能体的消息将它们集成到向量h
τ
′
中;每条消息m
...
【专利技术属性】
技术研发人员:姚念民,陈嘉义,赵剑,张亚楠,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。