当前位置: 首页 > 专利查询>北京大学专利>正文

一种多智能体合作决策及训练方法技术

技术编号:20867971 阅读:22 留言:0更新日期:2019-04-17 09:38
本发明专利技术提供一种多智能体合作决策及训练方法,包括如下步骤:S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,关系单元的关系卷积核将感受野内的特征向量整合为新的特征向量,迭代多次图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;S3:将感受野内的特征向量和图卷积层整合的新的特征向量拼接,送入价值网络,价值网络选择执行未来反馈期望最高的动作决策;S4:将智能体的局部观察集合及相关集合存储在缓冲区,在缓冲区采集样本进行训练,优化并改写损失函数。

【技术实现步骤摘要】
一种多智能体合作决策及训练方法
本专利技术涉及深度强化学习领域,特别涉及一种多智能体合作决策及训练方法。
技术介绍
深度强化学习已经在围棋等游戏任务中超越了人类水平,并逐渐被应用在自动化控制领域如自动驾驶等。在强化学习中,智能体通过观察环境状态,选择回报期望最大的动作,并接收环境给出的反馈。通过时序差分或策略梯度的方法进行训练,或者二者结合的actor-critic算法。但是当环境中存在多个智能体时,由于每个利益驱动的智能体只追求自身利益最大化,而容易忽视团队的整体利益,这使得合作策略难以实现。每一个智能体将其他智能体视为环境的一部分,由于其他智能体的策略会发生变化,这使得环境变得不稳定,给训练带来一定的困难。目前一些多智能体算法采用集中训练分散执行的框架,如MADDPG,critic网络接收其他所有智能体的状态和动作,这样避免了环境不稳定的问题。但是另一方面这种架构需要环境中所有智能体的信息,且需要为每一个智能体训练一套决策网络,训练代价很高且难以应用到大规模分布式方法中。一些模型通过通信促进智能体之间的合作,CommNet使用连续的通信信号来解决合作情景,在每一个时间步,每个智能体的隐藏层状态经过算术计算得到平均值作为下一层神经网络的输入。BiCNet采用循环神经网络将所有智能体的决策网络和价值网络连接起来,更好的实现信息共享。通信的方法在一定程度上促进了合作,但是在真实情境中,特别是大规模多智能体环境,这些方法会受限于通信延时,带宽以及信息冗余的问题。针对大规模智能体情景,MeanField方法提出采用周围临近智能体的平均动作作为输入,来表示其他智能体对中心智能体的影响。图卷积网络在一些不规则甚至位于非欧空间的数据集上取得了较好的效果,如社交网络、3D点云、蛋白质分子等。利用类似卷积的操作在图结构上作回归或者分类,预测隐藏的点特征和边特征。关系网络旨在学习实体之间的关系,并通过分析实体关系预测未来的状态。
技术实现思路
本专利技术的目的是通过以下技术方案实现的。一种多智能体合作决策及训练方法,包括如下步骤:S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量,迭代多次所述图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接,送入价值网络,所述价值网络选择执行未来反馈期望最高的动作决策;S4:将所述智能体的局部观察集合及相关集合存储在缓冲区,在所述缓冲区采集样本进行训练,优化并改写损失函数。具体地,在任一时刻,每个智能体获得的局部观察若为低维向量数据,则所述编码器使用多层感知器进行编码;每个智能体获得的局部观察若为视觉图像输入,则所述编码器使用卷积神经网络进行编码。具体地,在每一层图卷积操作中,每个智能体通过通信通道获取所述感受野内的特征向量;将所有智能体的特征向量拼接成一个大小为N×L的特征矩阵Ft,其中N是环境中智能体的总数目,L是特征向量的长度;对于每个智能体i构造一个大小为(K+1)×N的邻接矩阵K是感受野内智能体的数目,t为时刻;所述邻接矩阵的第一行是智能体i的索引的独热表示,剩余的第j行是感受野内智能体j的索引的独热表示,通过点乘运算得到智能体i局部区域内的特征向量集具体地,关系强度表示为:其中,αij为智能体i和智能体j之间的强度关系,εi为智能体i的局部区域,包括k个临近智能体和中心智能体,τ是规模系数,hi表示智能体i的特征向量,同理,j、e代表智能体,T表示矩阵转置,Wq和Wk分别是需要学习的每个注意力头的query向量参数和key向量参数,q为query,k为key。具体地,多头注意力机制产生的新的特征向量按照所述关系强度加权平均,并经过非线性变换函数σ得到该图层卷积的特征向量hi′:其中,Wv是需要学习的每个注意力头的value向量参数,v为value,M为注意力头的个数。具体地,价值网络为每一个可行的动作产生一个未来反馈的期望值,以1-∈的概率执行期望值最高的动作,或者以∈的概率执行随机动作,∈表示执行概率,取值范围[0,1]。具体地,在所述价值网络执行每一个动作后,将五元组(O,A,O′,R,C)存储在缓冲区中,O={o1,o2,…,oN}代表当前时间步智能体的局部观察集合,A={a1,a2,…,aN}代表智能体所选取的动作集合,O′={o′1,o′2,…,o′N}代表下一个时间步智能体的局部观察集合,R={r1,r2,…,rN}代表智能体得到的实时环境反馈集合,C代表智能体的局部连接结构。具体地,采用Q-learning的时序差分学习进行训练,每次随机从所述缓冲区采样一个包含S个样本的小集合,采用反向传播的方法优化损失函数:其中,Oi表示在智能体i感受野内的局部观察集合,O′i表示在智能体i感受野内下一个时间步的局部观察集合,a′i表示智能体i的下一个时间步的动作,γ是折扣因子,θ为当前网络参数,θ′是目标网络参数;采用如下规则更新所述目标网络参数:θ′=βθ+(1-β)θ′β为软更新超参。具体地,在所述损失函数中加入一项正则项,连续两步较高阶关系表示的KL散度,所述损失函数改写为:其中,DKL(||)为KL散度计算函数,R(Oi;θ)为智能体i在某一卷积层的关系表示的注意力参数分布。本专利技术的优点在于:在本专利技术中,图卷积层利用多头注意力机制的关系单元整合感受野内部的特征向量,随着卷积层数的增加,关系卷积核可以有效地抽取更高阶的关系,有利于复杂合作现象的出现。所有模块的权重都是共享的,这将显著地减少参数数目、加速训练过程,并且在执行过程中不受智能体数目的限制,智能体之间仅需要有限带宽的通信以获取临近智能体的信息。该方法有利于部署在大规模分布式决策方法中。附图说明通过阅读下文具体实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:附图1示出了根据本专利技术实施方式的决策及训练方法流程图;附图2示出了根据本专利技术实施方式的决策流程图;附图3示出了根据本专利技术实施方式的整合特征向量的流程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。根据本专利技术的实施方式,提出了一种多智能体合作决策及训练方法,基于图卷积模型关系机制的多智能体强化学习框架(DGN),该框架能更好的促进智能体之间的合作行为。在该方法中,将多智能体环境视为一个图,智能体作为图中的节点,智能体在环境中获得的局部观察作为节点的属性。每个节点与周围的K个节点有边相连。这主要考虑到每个智能体的行为主要影响到与之临近的其他智能体。并且在实际的大规模多智能体环境中,考虑所有智能体的影响会带来很高的带宽和计算本文档来自技高网
...

【技术保护点】
1.一种多智能体合作决策及训练方法,其特征在于,包括如下步骤:S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量,迭代多次所述图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接,送入价值网络,所述价值网络选择执行未来反馈期望最高的动作决策;S4:将所述智能体的局部观察集合及相关集合存储在缓冲区,在所述缓冲区采集样本进行训练,优化并改写损失函数。

【技术特征摘要】
1.一种多智能体合作决策及训练方法,其特征在于,包括如下步骤:S1:编码器使用多层感知器或卷积神经网络对智能体获得的局部观察进行编码,编码为感受野内的特征向量;S2:图卷积层利用多头注意力机制的关系单元计算智能体之间的关系强度,所述关系单元的关系卷积核将所述感受野内的特征向量整合为新的特征向量,迭代多次所述图卷积层,得到更大的感受野和更高阶的多头注意力机制的关系描述;S3:将所述感受野内的特征向量和图卷积层整合的所述新的特征向量拼接,送入价值网络,所述价值网络选择执行未来反馈期望最高的动作决策;S4:将所述智能体的局部观察集合及相关集合存储在缓冲区,在所述缓冲区采集样本进行训练,优化并改写损失函数。2.如权利要求1所述的决策及训练方法,其特征在于,在任一时刻,每个智能体获得的局部观察若为低维向量数据,则所述编码器使用多层感知器进行编码;每个智能体获得的局部观察若为视觉图像输入,则所述编码器使用卷积神经网络进行编码。3.如权利要求1所述的决策及训练方法,其特征在于,在每一层图卷积操作中,每个智能体通过通信通道获取所述感受野内的特征向量;将所有智能体的特征向量拼接成一个大小为N×L的特征矩阵Ft,其中N是环境中智能体的总数目,L是特征向量的长度;对于每个智能体i构造一个大小为(K+1)×N的邻接矩阵K是感受野内智能体的数目,t为时刻;所述邻接矩阵的第一行是智能体i的索引的独热表示,剩余的第j行是感受野内智能体j的索引的独热表示,通过点乘运算得到智能体i局部区域内的特征向量集4.如权利要求3所述的决策及训练方法,其特征在于,所述关系强度表示为:其中,αij为智能体i和智能体j之间的强度关系,εi为智能体i的局部区域,包括k个临近智能体和中心智能体,τ是规模系数,hi表示智能体i的特征向量,同理,j、e代表智能体,T表示矩阵转置,Wq和Wk分别是需要学习的每个注意力头的query向量参数和k...

【专利技术属性】
技术研发人员:卢宗青姜杰川
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1