一种基于动态编组的多智能体多目标探索方法和装置制造方法及图纸

技术编号：44699125 阅读：17 留言：0更新日期：2025-03-19 20:49

本发明专利技术涉及强化学习技术领域，提供了一种基于动态编组的多智能体多目标探索方法和装置。方法包括：每间隔预设数量个回合，根据损失函数，为各目标重新分配智能体；其中，分配至一个目标的多个智能体组成一个智能体编组；根据各智能体编组的目标，确定各智能体的目标策略，使用目标策略对各智能体进行多回合的训练。本发明专利技术基于构建的损失函数进行智能体的分配，解决了多目标强化学习中的难探索问题，实现了智能体间的协同分配。并且还考虑了资源的优化分配，适时进行智能体与目标的重新编组，实现了多智能体的高效训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及强化学习，特别是涉及一种基于动态编组的多智能体多目标探索方法和装置。

技术介绍

1、强化学习(reinforcement learning，简写为rl)作为机器学习的第三范式，克服了监督学习需要大量标注数据集的约束，在建模难、建模不准确的问题上取得了良好的表现。自q学习(英文全称为：q-learning)以来，强化学习快速从单智能体算法发展到了多智能体算法。至今，多智能体强化学习已经成功应用于在物流、围棋、机器人和游戏等领域。

2、然而，在单个智能体不能独立完成任务的多目标强化学习环境中，随着目标数量的增多，智能体的协同探索出现难以分配的问题。这使得探索困难急剧增加，在极端情况下，目标策略将不会收敛。分配难、探索慢等问题阻碍着多智能体强化学习在现实世界的广泛应用。

3、鉴于此，如何克服现有技术所存在的缺陷，实现多智能体多目标的协同训练，是本
亟待解决的问题。

技术实现思路

1、本专利技术要解决的技术问题是提供一种基于动态编组的多智能体多目标探索方...

【技术保护点】

1.一种基于动态编组的多智能体多目标探索方法，其特征在于，包括：

2.根据权利要求1所述的基于动态编组的多智能体多目标探索方法，其特征在于，所述损失函数为

3.根据权利要求1所述的基于动态编组的多智能体多目标探索方法，其特征在于，所述根据损失函数，为各目标重新分配智能体，具体包括：

4.根据权利要求1所述的基于动态编组的多智能体多目标探索方法，其特征在于，所述从所有未完成的目标中，选择w个目标作为参与分配的目标，为参与分配的目标分配个智能体，使损失函数的值最小，具体包括：

5.根据权利要求4所述的基于动态编组的多智能体多目标探索方法，其特征...

【技术特征摘要】

1.一种基于动态编组的多智能体多目标探索方法，其特征在于，包括：

2.根据权利要求1所述的基于动态编组的多智能体多目标探索方法，其特征在于，所述损失函数为

3.根据权利要求1所述的基于动态编组的多智能体多目标探索方法，其特征在于，所述根据损失函数，为各目标重新分配智能体，具体包括：

5.根据权利要求4所述的基于动态编组的多智能体多目标探索方法，其特征在于，当各未完成的目标所需智能体的数量相同时，其中，w为参与分配的目标的数量，k为每一个未完成的目标所需智能体的数量，p％k代表p除以k的余数，代表向下取整。

6.根据权利要求1所述的基于动态编组...

【专利技术属性】
技术研发人员：汤海南，刘俊涛，田华臣，骆训浩，
申请(专利权)人：中国船舶集团有限公司第七〇九研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人