一种知识驱动的生物智能群体协同决策方法技术

技术编号：40536654 阅读：8 留言：0更新日期：2024-03-01 13:58

本发明专利技术属于强化学习技术领域，公开了一种知识驱动的生物智能群体协同决策方法。为了克服现有多智能体强化学习方法无法利用高阶逻辑关系、忽略不同智能体的重要程度以及无法捕捉多智能体系统的时间依赖性和动态图结构等问题，本发明专利技术提出了一种知识驱动的生物智能群体协同决策方法，结合高阶模体表示、注意力机制、长短期记忆网络等技术，最终实现对多智能体动态系统的充分学习和表示，并用于后续的强化学习流程中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于强化学习，涉及到一种知识驱动的生物智能群体协同决策方法。

技术介绍

1、从细菌到昆虫，到群居动物以及人类，生物智能群体的协作行为在自然界中十分普遍。例如，在人类社会中存在如交通控制、资源管理、自动驾驶等大量的合作问题。这些问题可以公式化为一个多智能体合作系统，其目标为最大化智能体的激励，该问题的一个研究方向是多智能体强化学习(multi agent reinforcement learning)。但是，多智能体强化学习方法在高维状态空间和动作空间难以学习复杂的策略。并且在多智能体的环境中，智能体之间的交互十分复杂，每个智能体难以有效处理其他智能体的海量信息，这会严重影响合作行为。此外，智能体之间的关系随着时间的推移会不断发生变化，现有方法无法捕捉空间结构和时间依赖性，以学习稳定的策略。

2、为了解决上述问题，大量多智能体强化学习算法被提出，但这些方法都有其局限性。lowe等人在2017年发表在neurips上的工作《multi-agent actor-critic for mixedcooperative-competitive environments》多智能体深度确定性策略梯度方法，采用集中训练与分散执行的框架来增强智能体在混合合作竞争环境下的合作行为。基于同样的目的，foerster等人在2018年发表在aaai上的工作《counterfactual multi agent policygradients》提出了反事实智能体策略梯度方法，采用集中式批评方式，并设计反事实基准，将各智能体的影响边缘化

技术实现思路

1、为了克服现有多智能体强化学习方法无法利用高阶逻辑关系、忽略不同智能体的重要程度以及无法捕捉多智能体系统的时间依赖性和动态图结构等问题，本专利技术提出了一种知识驱动的生物智能群体协同决策方法，结合高阶模体表示、注意力机制、长短期记忆网络等技术，最终实现对多智能体动态系统的充分学习和表示，并用于后续的强化学习流程中。

2、为了达到上述目的，本专利技术的技术方案：

3、一种知识驱动的生物智能群体协同决策方法，首先建模多智能体系统，将多智能体间的空间关系和各自的观测值建构成图；其次，通过高阶模体表示来提取智能体之间的高阶逻辑关系，并将其作为智能体的高阶属性；接着，通过注意力机制计算其他相邻智能体的注意力权重系数，并通过多头注意力机制作为聚合器实现学习过程的稳定，得到两类属性的嵌入；之后，为了进一步表示实体，将实体的高阶属性嵌入以及观测值嵌入进行合并；然后，使用长短期记忆网络捕获系统的时间依赖性和复杂动态结构，以获得更有效的状态观测；最后，将这些观测值状态输入到策略优化网络中，去预测其状态以及所有可能动作的概率分布；

4、具体步骤如下：

5、步骤一：多智能体系统建模，将每个智能体定义为动态图中的一个节点；具体来说，定义智能体i在t时刻的观测向量作为其节点属性并定义t时刻的n×n邻接矩阵at，其中，邻接矩阵的ij元素为aij，当智能体i与智能体j通信时aij＝1，反之aij＝0，n为节点个数；

6、步骤二：对于每一个智能体，定义其在t时刻的实体模体度式中ep表明智能体i同时被包含于多个不同的第p种模体中；进一步，定义动态图实体模体度矩阵为在本方法中，动态图实体模体度矩阵被用作高阶属性矩阵参与训练；

7、步骤三：计算节点j对于节点i的注意力权重系数eij＝a(whi,whj)及注意力权重系数标准化形式其中，a代表单层前馈神经网络，w是线性权重矩阵，leakyrelu是一个输入斜率为负值的非线性激活函数，代表节点i的邻居节点集合；节点i在t时刻的聚合表示其中，σ是一个非线性函数；之后，将多头注意力机制作为聚合器以稳定注意力学习过程，从不同的状态字空间中提取智能体的不同状态表示；此时节点i在t时刻的表示更新为其中，m代表多头注意力的数量；同样，步骤二生成的高阶属性矩阵m的每行在t时刻的表示为

8、步骤四：将步骤三得到的节点表示与行表示分别组成原始观测嵌入矩阵h和高阶属性嵌入矩阵hs进行聚合，以更好地表示实体间关系和整体系统，得到特征聚合矩阵hagg＝h+hs；

9、步骤五：使用lstm刻画多智能体系统的时间依赖性以及动态拓扑结构；该部分由三个门组成：遗忘门ft、输入门it和输出门ot，详细计算过程如下：

10、

11、

12、

13、其中，σ(·)表示sigmoid函数，对于输入值x，sigmoid函数输出wf，wi，wo分别代表遗忘门、输入门、输出门的权重矩阵，bf，bi，bo分别代表遗忘门、输入门、输出门的偏置向量，代表t时刻的输入，ht-1代表t-1时刻lstm隐藏层状态输出；

14、当前隐藏层定义为wc代表权重矩阵，bc代表偏置向量，输出值在[-1,1]区间内；于是，当前的记忆细胞由两部分组成，一是通过遗忘门筛选上一个单元记忆细胞需要保留的信息，二是通过输入门更新当前隐藏层信息；将上一个单元记忆细胞保留的信息与当前隐藏层信息相加得到当前的记忆细胞，即：

15、

16、其中，⊙为逐元素乘法；

17、通过输出门根据当前记忆细胞更新得到当前时刻lstm隐藏层状态输出：

18、ht＝ot⊙tanh(ct)

19、步骤六：智能体策略学习；首先，智能体初始化动作观测为随机过程ran，并获得初始状态值z；然后，对于每一个智能体i，根据参数为θi的策略网络μθi的输出选择其自身的动作ai＝μθi(zi)+ran；之后，执行所有智能体的动作a＝(a1,a2,…,an)，并且取得回报r和系统新一轮的状态值z’；之后，将四元组(z,a,r,z’)储存在经验重放缓冲区中并将变化后的状态值z’赋值给z；接着，对于每一个智能体，从经验重放缓冲区中随机抽取小批量s个四元组样本(zj,aj,rj,z’j)，其中j为样本序号，1≤j≤s，定义第j样本对于智能体i的对应回报其中所有智能体动作a*j由智能体i面对状态zj的新动作替换样本原有动作aj的对应位置组合而成，即γ是0到1之间的折扣因子，为智本文档来自技高网...

【技术保护点】

1.一种知识驱动的生物智能群体协同决策方法，其特征在于，首先建模多智能体系统，将多智能体间的空间关系和各自的观测值建构成图；其次，通过高阶模体表示来提取智能体之间的高阶逻辑关系，并将其作为智能体的高阶属性；接着，通过注意力机制计算其他相邻智能体的注意力权重系数，并通过多头注意力机制作为聚合器实现学习过程的稳定，得到两类属性的嵌入；之后，为了进一步表示实体，将实体的高阶属性嵌入以及观测值嵌入进行合并；然后，使用长短期记忆网络捕获系统的时间依赖性和复杂动态结构，以获得更有效的状态观测；最后，将这些观测值状态输入到策略优化网络中，去预测其状态以及所有可能动作的概率分布；

【技术特征摘要】

1.一种知识驱动的生物智能群体协同决策方法，其特征在于，首先建模多智能体系统，将多智能体间的空间关系和各自的观测值建构成图；其次，通过高阶模体表示来提取智能体之间的高阶逻辑关系，并将其作为智能体的高阶属性；接着，通过注意力机制计算其他相邻智能体的注意力权重系数，并通过多头注意力机制作为...

【专利技术属性】
技术研发人员：柏广庆，于硕，李朋，张强，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人