一种基于观察交互的多智能体协调方法技术

技术编号:40192610 阅读:26 留言:0更新日期:2024-01-26 23:54
本发明专利技术公开了一种基于观察交互的多智能体协调方法,涉及多智能体强化学习技术领域,包括以下步骤:S1:观察信息交互:同时存在多个智能体与环境交互时,每个智能体将其获得的局部观察结果和最后的操作作为输入,输入到MAIT中,通过MAIT进行观察信息交互;S2:观察动作建模:智能体交互后的观察与智能体动作建立联系,选出当前环境状态下最优动作,采用MAIT中的多头注意力机制确定重要性权重,完成观察与动作之间的建模;S3:决策优化:通过将智能体局部观察进行优化,优化观察与动作之间的建模,实现智能体决策网络的优化。本发明专利技术采用上述方法利用交互网络交互每个智能体局部观察,加深智能体在有限设定中对全局环境的观察,提升多智能体间的协作能力。

【技术实现步骤摘要】

本专利技术涉及多智能体强化学习,尤其是涉及一种基于观察交互的多智能体协调方法


技术介绍

1、深度强化学习与多智能体系统的结合为群体智能构建与自主适应提出了新的思路。多智能体强化学习(marl)可以为许多现实世界中具有挑战性的问题提供解决方案。如智能交通领域的自动驾驶,交通信号灯的控制,路径规划。此外,协作多智能体还被广泛运用到资源分配问题上,计算卸载、车间设备调度、路由分配等富有挑战性的问题。采用多智能体系统建模是未来实现广泛的群体智能的重要方法。

2、现在已经提出了许多利用动作价值函数来学习多智能体模型的方法,但仍然存在一些问题。首先,多智能体系统本身就带有部分可观测性、非平稳性等。其次,多智能体强化学习比单智能体强化学习要复杂的多,多智能体系统会随着任务的复杂度,设置相应数量的智能体,这会导致多智能体的状态空间、动作空间呈现指数级增长,尽管已经通过深度神经网络泛化,但是维度灾难依旧难以避免。最后,多智能体协作并非多个单智能体的堆叠,而是各个智能体相互协作,共同完成目标,这样又会引发一个新的问题,整个环境收敛到次优解,无法获得更好的策略,无本文档来自技高网...

【技术保护点】

1.一种基于观察交互的多智能体协调方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于观察交互的多智能体协调方法,其特征在于:在所述步骤S1中,观察信息交互具体包括如下步骤:

3.根据权利要求1所述的一种基于观察交互的多智能体协调方法,其特征在于:在所述步骤S2中,观察动作建模的具体过程为:

4.根据权利要求1所述的一种基于观察交互的多智能体协调方法,其特征在于:在所述步骤S3中策略优化的具体步骤为:通过交互智能体之间局部观察,缓解多智能体系统中由于局部可观测性对多智能体策略网络更新时的误导。

【技术特征摘要】

1.一种基于观察交互的多智能体协调方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于观察交互的多智能体协调方法,其特征在于:在所述步骤s1中,观察信息交互具体包括如下步骤:

3.根据权利要求1所述的一种基于观察交互的多智能体协调方法,...

【专利技术属性】
技术研发人员:罗富良赵岭忠
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1