一种融合图注意力机制的多智能体强化学习编队自适应方法技术

技术编号：46202322 阅读：8 留言：0更新日期：2025-08-26 19:10

本发明专利技术涉及多智能体协同控制技术领域，公开一种融合图注意力机制的多智能体强化学习编队自适应方法。该方法通过构建动态图状态空间，结合速度自适应通信机制与多目标回报函数，解决智能体数量变化或拓扑结构动态调整时的泛化能力不足问题。方案包括：建立虚拟领导‑跟随编队模型与运动动力学模型；设计基于速度变化的自适应通信半径公式；构建图状态空间，利用多头注意力机制动态聚合邻居信息；设计带残差连接的策略网络与价值评估网络；采用集中式训练分布式执行框架更新模型参数。通过图注意力机制实现关键邻居信息自适应提取，结合动态通信范围调整，提升编队系统在复杂环境中的适应性与稳定性。适用于无人机群控、机器人协作等场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体协同控制和强化学习领域，具体涉及一种融合图注意力机制的多智能体强化学习编队自适应方法。

技术介绍

1、近年来，随着机器人技术和人工智能的快速发展，多智能体编队协同控制技术作为群体智能领域的关键研究方向，正面临着新的发展机遇与挑战。特别是在工业自动化、智能交通和无人系统等领域的智能化转型过程中，对多智能体系统的自主协同能力提出了更高要求。

2、强化学习作为一种通过环境交互获得最优策略的机器学习方法，在多智能体协同控制领域展现出独特优势。其基于延迟奖励的自适应学习机制，不仅能够实现控制策略的自主优化，还能有效应对复杂动态环境下的协同控制需求。相比传统控制方法，强化学习驱动的多智能体系统表现出更强的环境适应性和策略优化能力，这使其成为解决编队协同控制中环境适应性问题的有效途径。

3、然而，现有基于强化学习的编队控制算法仍存在明显不足：采用固定邻居数量和等权聚合策略的状态构建方式导致系统在智能体数量变化或拓扑结构调整时适应性较差。具体表现为：(1)固定感知模式限制了智能体对动态环境的响应能力；(2)...

【技术保护点】

1.一种融合图注意力机制的多智能体强化学习编队自适应方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合图注意力机制的多智能体强化学习编队自适应方法，其特征在于：所述步骤S1包括：

3.根据权利要求2所述的一种融合图注意力机制的多智能体强化学习编队自适应方法，其特征在于：所述步骤S2包括：

4.根据权利要求3所述的一种融合图注意力机制的多智能体强化学习编队自适应方法，其特征在于：所述步骤S3包括：

5.根据权利要求4所述的一种融合图注意力机制的多智能体强化学习编队自适应方法，其特征在于：所述步骤S4包括：</p>

6.根据...

【技术特征摘要】

1.一种融合图注意力机制的多智能体强化学习编队自适应方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种融合图注意力机制的多智能体强化学习编队自适应方法，其特征在于：所述步骤s1包括：

3.根据权利要求2所述的一种融合图注意力机制的多智能体强化学习编队自适应方法，其特征在于：所述步骤s2包括：

4.根...

【专利技术属性】
技术研发人员：王卓然，袁国慧，郭远波，宋龙杰，
申请(专利权)人：电子科技大学长三角研究院衢州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人