【技术实现步骤摘要】
本专利技术涉及强化学习,特别是涉及一种基于动态编组的多智能体多目标探索方法和装置。
技术介绍
1、强化学习(reinforcement learning,简写为rl)作为机器学习的第三范式,克服了监督学习需要大量标注数据集的约束,在建模难、建模不准确的问题上取得了良好的表现。自q学习(英文全称为:q-learning)以来,强化学习快速从单智能体算法发展到了多智能体算法。至今,多智能体强化学习已经成功应用于在物流、围棋、机器人和游戏等领域。
2、然而,在单个智能体不能独立完成任务的多目标强化学习环境中,随着目标数量的增多,智能体的协同探索出现难以分配的问题。这使得探索困难急剧增加,在极端情况下,目标策略将不会收敛。分配难、探索慢等问题阻碍着多智能体强化学习在现实世界的广泛应用。
3、鉴于此,如何克服现有技术所存在的缺陷,实现多智能体多目标的协同训练,是本
亟待解决的问题。
技术实现思路
1、本专利技术要解决的技术问题是提供一种基于动态编组的多智能体多目标探索方
...【技术保护点】
1.一种基于动态编组的多智能体多目标探索方法,其特征在于,包括:
2.根据权利要求1所述的基于动态编组的多智能体多目标探索方法,其特征在于,所述损失函数为
3.根据权利要求1所述的基于动态编组的多智能体多目标探索方法,其特征在于,所述根据损失函数,为各目标重新分配智能体,具体包括:
4.根据权利要求1所述的基于动态编组的多智能体多目标探索方法,其特征在于,所述从所有未完成的目标中,选择w个目标作为参与分配的目标,为参与分配的目标分配个智能体,使损失函数的值最小,具体包括:
5.根据权利要求4所述的基于动态编组的多智能体多
...【技术特征摘要】
1.一种基于动态编组的多智能体多目标探索方法,其特征在于,包括:
2.根据权利要求1所述的基于动态编组的多智能体多目标探索方法,其特征在于,所述损失函数为
3.根据权利要求1所述的基于动态编组的多智能体多目标探索方法,其特征在于,所述根据损失函数,为各目标重新分配智能体,具体包括:
4.根据权利要求1所述的基于动态编组的多智能体多目标探索方法,其特征在于,所述从所有未完成的目标中,选择w个目标作为参与分配的目标,为参与分配的目标分配个智能体,使损失函数的值最小,具体包括:
5.根据权利要求4所述的基于动态编组的多智能体多目标探索方法,其特征在于,当各未完成的目标所需智能体的数量相同时,其中,w为参与分配的目标的数量,k为每一个未完成的目标所需智能体的数量,p%k代表p除以k的余数,代表向下取整。
6.根据权利要求1所述的基于动态编组...
【专利技术属性】
技术研发人员:汤海南,刘俊涛,田华臣,骆训浩,
申请(专利权)人:中国船舶集团有限公司第七〇九研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。