【技术实现步骤摘要】
本专利技术涉及强化学习和多智能体博弈,特别是指一种主任务和辅助任务并行的智能体分配方法及装置。
技术介绍
1、在当前多智能体强化学习领域,团队奖励的稀疏性是一个影响算法学习成功与否的重要因素,稀疏的团队奖励往往使智能体难以完成团队目标。在多智能体强化学习任务中,智能体需要从与环境交互所得到的反馈中去学习,分辨哪些动作序列使奖励得到了实质提升,但事实上所得到的反馈信号很稀疏,以至于智能体很难从反馈数据中提取有用特征,从而使的建立最大化,完成目标。尤其是在多智能体环境中,团队目标只有一个,团队奖励的设定也往往比较稀疏,与环境交互所得到的反馈很难给团队中的每个智能体足够的奖励分配,这使算法难以成功学习合作团队策略。
2、目前,解决这一问题的常用方法是为放大从游戏环境中得到的稀疏的外部奖励信号,通过额外的反馈信号帮助智能体学习。具体实施时可以为单个智能体设置密集的个人奖励,以引导智能体进行合作并完成团队主任务。然而,这一方法并不能总是有效,过于密集的个人奖励有时甚至会使智能体丧失探索的欲望,亦或者得到与现实世界不相符的动作和逻辑。在
...【技术保护点】
1.一种主任务和辅助任务并行的智能体分配方法,其特征在于,所述方法包括:
2.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述S2的根据个人辅助任务和团队主任务,根据Actor-Critic框架,确定所述多智能体的团队策略以及每个智能体的个人策略,确定团队策略中执行动作对应的奖励以及每个个人策略中执行动作对应的奖励,包括:
3.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述S3的根据个人策略、个人策略中执行动作对应的奖励、团队策略以及团队策略中执行动作对应的奖励,确定个人策略与团队策略之间的
...【技术特征摘要】
1.一种主任务和辅助任务并行的智能体分配方法,其特征在于,所述方法包括:
2.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s2的根据个人辅助任务和团队主任务,根据actor-critic框架,确定所述多智能体的团队策略以及每个智能体的个人策略,确定团队策略中执行动作对应的奖励以及每个个人策略中执行动作对应的奖励,包括:
3.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s3的根据个人策略、个人策略中执行动作对应的奖励、团队策略以及团队策略中执行动作对应的奖励,确定个人策略与团队策略之间的相似度,包括:
4.根据权利要求1所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s4的对经验池中的经验进行排序,包括:
5.根据权利要求4所述的主任务和辅助任务并行的智能体分配方法,其特征在于,所述s5的以所述相似度为约束,基于经验池的经验回放机制,对所述个人策略...
【专利技术属性】
技术研发人员:于欣波,崔晓峰,贺威,王志闯,周长信,张爽,张冬浩,吴逸帆,冯楠,李擎,
申请(专利权)人:北京科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。