一种主任务和辅助任务并行的智能体分配方法及装置制造方法及图纸

技术编号:42831801 阅读:29 留言:0更新日期:2024-09-24 21:05
本发明专利技术涉及强化学习和多智能体博弈技术领域,特别是指一种主任务和辅助任务并行的智能体分配方法及装置。方法包括:基于ATP框架,确定团队主任务以及个人辅助任务,根据Actor‑Critic框架,确定团队策略以及个人策略,确定团队策略中执行动作的奖励和每个个人策略中执行动作的奖励;根据个人策略、个人策略中执行动作的奖励、团队策略以及团队策略中执行动作的奖励,确定个人策略与团队策略之间的相似度;将经验放置到ATP框架的经验池中,并对经验池中的经验进行排序;以相似度为约束,基于经验池的经验回放机制,对个人策略和团队策略分别进行更新。采用本发明专利技术,可以在提高多智能体任务训练效率的同时,促进智能体间的合作,不会增加额外的计算负担。

【技术实现步骤摘要】

本专利技术涉及强化学习和多智能体博弈,特别是指一种主任务和辅助任务并行的智能体分配方法及装置


技术介绍

1、在当前多智能体强化学习领域,团队奖励的稀疏性是一个影响算法学习成功与否的重要因素,稀疏的团队奖励往往使智能体难以完成团队目标。在多智能体强化学习任务中,智能体需要从与环境交互所得到的反馈中去学习,分辨哪些动作序列使奖励得到了实质提升,但事实上所得到的反馈信号很稀疏,以至于智能体很难从反馈数据中提取有用特征,从而使的建立最大化,完成目标。尤其是在多智能体环境中,团队目标只有一个,团队奖励的设定也往往比较稀疏,与环境交互所得到的反馈很难给团队中的每个智能体足够的奖励分配,这使算法难以成功学习合作团队策略。

2、目前,解决这一问题的常用方法是为放大从游戏环境中得到的稀疏的外部奖励信号,通过额外的反馈信号帮助智能体学习。具体实施时可以为单个智能体设置密集的个人奖励,以引导智能体进行合作并完成团队主任务。然而,这一方法并不能总是有效,过于密集的个人奖励有时甚至会使智能体丧失探索的欲望,亦或者得到与现实世界不相符的动作和逻辑。在训练智能体时,希望智本文档来自技高网...

【技术保护点】

1.一种主任务和辅助任务并行的智能体分配方法,其特征在于,所述方法包括:

2.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述S2的根据个人辅助任务和团队主任务,根据Actor-Critic框架,确定所述多智能体的团队策略以及每个智能体的个人策略,确定团队策略中执行动作对应的奖励以及每个个人策略中执行动作对应的奖励,包括:

3.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述S3的根据个人策略、个人策略中执行动作对应的奖励、团队策略以及团队策略中执行动作对应的奖励,确定个人策略与团队策略之间的相似度,包括:...

【技术特征摘要】

1.一种主任务和辅助任务并行的智能体分配方法,其特征在于,所述方法包括:

2.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s2的根据个人辅助任务和团队主任务,根据actor-critic框架,确定所述多智能体的团队策略以及每个智能体的个人策略,确定团队策略中执行动作对应的奖励以及每个个人策略中执行动作对应的奖励,包括:

3.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s3的根据个人策略、个人策略中执行动作对应的奖励、团队策略以及团队策略中执行动作对应的奖励,确定个人策略与团队策略之间的相似度,包括:

4.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s4的对经验池中的经验进行排序,包括:

5.根据权利要求4所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s5的以所述相似度为约束,基于经验池的经验回放机制,对所述个人策略...

【专利技术属性】
技术研发人员:于欣波崔晓峰贺威王志闯周长信张爽张冬浩吴逸帆冯楠李擎
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1