【技术实现步骤摘要】
本专利技术涉及多智能体强化学习,尤其是涉及一种基于观察交互的多智能体协调方法。
技术介绍
1、深度强化学习与多智能体系统的结合为群体智能构建与自主适应提出了新的思路。多智能体强化学习(marl)可以为许多现实世界中具有挑战性的问题提供解决方案。如智能交通领域的自动驾驶,交通信号灯的控制,路径规划。此外,协作多智能体还被广泛运用到资源分配问题上,计算卸载、车间设备调度、路由分配等富有挑战性的问题。采用多智能体系统建模是未来实现广泛的群体智能的重要方法。
2、现在已经提出了许多利用动作价值函数来学习多智能体模型的方法,但仍然存在一些问题。首先,多智能体系统本身就带有部分可观测性、非平稳性等。其次,多智能体强化学习比单智能体强化学习要复杂的多,多智能体系统会随着任务的复杂度,设置相应数量的智能体,这会导致多智能体的状态空间、动作空间呈现指数级增长,尽管已经通过深度神经网络泛化,但是维度灾难依旧难以避免。最后,多智能体协作并非多个单智能体的堆叠,而是各个智能体相互协作,共同完成目标,这样又会引发一个新的问题,整个环境收敛到次优解,无
...【技术保护点】
1.一种基于观察交互的多智能体协调方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于观察交互的多智能体协调方法,其特征在于:在所述步骤S1中,观察信息交互具体包括如下步骤:
3.根据权利要求1所述的一种基于观察交互的多智能体协调方法,其特征在于:在所述步骤S2中,观察动作建模的具体过程为:
4.根据权利要求1所述的一种基于观察交互的多智能体协调方法,其特征在于:在所述步骤S3中策略优化的具体步骤为:通过交互智能体之间局部观察,缓解多智能体系统中由于局部可观测性对多智能体策略网络更新时的误导。
【技术特征摘要】
1.一种基于观察交互的多智能体协调方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于观察交互的多智能体协调方法,其特征在于:在所述步骤s1中,观察信息交互具体包括如下步骤:
3.根据权利要求1所述的一种基于观察交互的多智能体协调方法,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。