System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多智能体决策方法及装置、电子设备及存储介质制造方法及图纸_技高网

多智能体决策方法及装置、电子设备及存储介质制造方法及图纸

技术编号:41340907 阅读:4 留言:0更新日期:2024-05-20 09:58
本公开涉及一种多智能体决策方法及装置、电子设备及存储介质,所述方法包括:对预设仿真博弈环境中的所有智能体进行编号,将每个编号后智能体作为目标智能体,获取目标智能体编号以及目标智能体当前时刻的局部观测值;根据所述局部观测值,对每个编号在目标智能体编号之前的智能体当前时刻的动作进行预测;根据所述局部观测值以及每个编号在目标智能体编号之前的智能体当前时刻的预测动作,确定目标智能体当前时刻采取的动作,能够隐式地在分布式执行时引入序列动作依赖,在不破坏分布式执行下,每个智能体只需要预测序号在其之前的智能体的动作,并依赖预测的动作进行决策,既保留分布式执行的优点,又可以引入序列化的动作依赖,保证最优动作的选取。

【技术实现步骤摘要】

本公开涉及多智能体强化学习博弈对抗和多智能体协同决策,尤其涉及一种多智能体决策方法及装置、电子设备及存储介质


技术介绍

1、仿真博弈人工智能对抗与决策是目前人工智能领域的一个热门研究方向,通过在仿真博弈环境中利用人工智能算法控制的智能体进行博弈对抗或协同决策,可以对现实环境中的博弈对抗进行过程和结果的模拟与分析。仿真博弈对抗在军事、政治、社会、游戏等领域有重要的研究意义与广阔的应用场景,目前关于仿真博弈对抗人工智能算法的研究与应用也取得了显著的进展与成果。在多智能体仿真博弈对抗中,常用的算法是多智能体强化学习算法。该方法将强化学习方法应用在多智能体的环境中,让多个智能体通过与环境和其他智能体进行交互来学习最优策略,实现智能体之间的合作、竞争等任务。

2、现有的多智能体强化学习算法主要包括三种方法:分布式方法,中心化方法,以及中心化训练、分布式执行方法。

3、分布式方法将每个智能体作为独立个体,用单智能体强化学习的方法分别进行训练。这种方法的优点在于简洁明了,在一些简单的任务上有不错的效果。缺点在于训练时存在环境不稳定的问题,不能保证收敛性。该问题存在的原因是在分布式训练阶段,每个智能体都将其他智能体作为环境,而各个智能体算法都在不断更新迭代,导致对于每个智能体来说环境并不稳定,所以无法保证训练收敛性。

4、中心化方法尝试使用一个中心化的控制器来对多个智能体进行控制,从而将多智能体问题建模为单智能体的同步或者序列决策问题。这种方法的优点是有一个中心化控制器进行训练,避免训练阶段的环境不稳定。在执行时对每个智能体来说可以用更多的信息来进行决策,甚至可以按照一定顺序进行决策从而让智能体在决策时依赖于之前智能体的动作,保证能够最终选取到联合最优动作。该方法缺点也很明显,由于使用中心化的控制器,在大多数场景下不满足这一条件,所以这种方法的应用场景十分受限。并且中心化控制器容易出现单点故障问题,导致整个算法失效。

5、中心化训练、分布式执行方法在训练阶段使用包括所有智能体信息的全局信息辅助训练,而在执行阶段,各智能体根据自己的局部观测进行独立决策。这种方法的优点在于,训练阶段使用全局信息辅助学习缓解了分布式训练环境不稳定的问题;而执行阶段分布式执行可以适应更多的应用场景,避免单点故障。该方法的缺点在于,在执行阶段各智能体依旧是分布式的同时决策。而且由于分布式执行的前提,智能体不能获取其他智能体的下一步决策信息,无法显示引入序列化的动作依赖。在没有相互动作依赖的情况下在某些场景达不到最优解。

6、有一些基于建模的学习方法考虑每个智能体对其他智能体的动作进行建模预测。但是考虑到博弈理论中猜疑链的存在,如果这种对其他智能体的动作预测是在所有智能体上同步发生的,在很多场景下这种做法依然无法保证达到最优解。


技术实现思路

1、为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种多智能体决策方法及装置、电子设备及存储介质。

2、第一方面,本公开的实施例提供了一种多智能体决策方法,包括:

3、对预设仿真博弈环境中的所有智能体进行编号,并将每个编号后智能体作为目标智能体,执行以下步骤:

4、获取目标智能体编号以及预设仿真博弈环境中目标智能体当前时刻的局部观测值;

5、根据目标智能体当前时刻的局部观测值,对每个编号在目标智能体编号之前的智能体当前时刻的动作进行预测,得到每个编号在目标智能体编号之前的智能体当前时刻的预测动作;

6、根据目标智能体当前时刻的局部观测值以及每个编号在目标智能体编号之前的智能体当前时刻的预测动作,确定目标智能体当前时刻采取的动作。

7、在一种可能的实施方式中,所述根据目标智能体当前时刻的局部观测值,对每个编号在目标智能体编号之前的智能体当前时刻的动作进行预测,得到每个编号在目标智能体编号之前的智能体当前时刻的预测动作,包括:

8、将目标智能体当前时刻的局部观测值以及上一时刻的隐藏状态值,输入预先训练的序列动作预测模型,输出每个编号在目标智能体编号之前的智能体当前时刻的预测动作。

9、在一种可能的实施方式中,所述序列动作预测模型的损失函数为以下表达式:

10、

11、其中,lossactionpred(θ1)为序列动作预测模型的损失值,crossentropy()为交叉熵,θ1为序列动作预测模型的网络参数,为t时刻第k个智能体的真实动作,为t时刻第k个智能体的预测动作,n为智能体的总数量。

12、在一种可能的实施方式中,所述根据目标智能体当前时刻的局部观测值以及每个编号在目标智能体编号之前的智能体当前时刻的预测动作,确定目标智能体当前时刻采取的动作,包括:

13、将目标智能体当前时刻的局部观测值以及每个编号在目标智能体编号之前的智能体当前时刻的预测动作,输入预先训练的动作决策模型,输出目标智能体当前时刻采取的动作,其中,所述动作决策模型的损失函数为以下表达式:

14、

15、

16、其中,losspolicy(θ2)为所述动作决策模型的损失值,为使用通用优势估计计算得到的优势,θ2为动作决策模型的网络参数,为重要性采样,为目标策略在状态下采取动作的概率,为行为策略在状态下采取动作的概率,n为智能体的总数量,t为一次仿真的总时间步数。

17、在一种可能的实施方式中,所述方法还包括:

18、在所有智能体当前时刻的动作联合作用于预设仿真博弈环境之后,接收预设仿真博弈环境当前时刻的全局信息,并根据预设仿真博弈环境当前时刻的全局信息对当前时刻的状态价值进行估计,得到当前时刻的状态价值。

19、在一种可能的实施方式中,所述根据预设仿真博弈环境当前时刻的全局信息对当前时刻的状态价值进行估计,包括:

20、将预设仿真博弈环境当前时刻的全局信息输入预先训练的状态价值评估模型,输出当前时刻的状态价值,其中,所述状态价值评估模型的损失函数为以下表达式:

21、

22、

23、其中,losscritic(φ)为状态价值评估模型的损失值,为第i个智能体t时刻的状态价值,φ为状态价值评估模型的网络参数,为带衰减系数γ的未来奖励估计,rt为t时刻的奖励,n为智能体的总数量,t为一次仿真的总时间步数。

24、在一种可能的实施方式中,所述序列动作预测模型、动作决策模型、状态价值评估模型通过以下表达式联合训练:

25、loss=αlosspolicy+βlossactionpred+γlosscritic

26、其中,loss为序列动作预测模型、动作决策模型、状态价值评估模型的联合损失值,losspolicy为所述动作决策模型的损失值,lossactionpred为所述序列动作预测模型的损失值,losscritic为所述状态价值评估模型的损失值,α、β、γ分别为所述动作决本文档来自技高网...

【技术保护点】

1.一种多智能体决策方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据目标智能体当前时刻的局部观测值,对每个编号在目标智能体编号之前的智能体当前时刻的动作进行预测,得到每个编号在目标智能体编号之前的智能体当前时刻的预测动作,包括:

3.根据权利要求2所述的方法,其特征在于,所述序列动作预测模型的损失函数为以下表达式:

4.根据权利要求2所述的方法,其特征在于,所述根据目标智能体当前时刻的局部观测值以及每个编号在目标智能体编号之前的智能体当前时刻的预测动作,确定目标智能体当前时刻采取的动作,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述根据预设仿真博弈环境当前时刻的全局信息对当前时刻的状态价值进行估计,包括:

7.根据权利要求6所述的方法,其特征在于,所述序列动作预测模型、动作决策模型、状态价值评估模型通过以下表达式联合训练:

8.一种多智能体决策装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的多智能体决策方法。

...

【技术特征摘要】

1.一种多智能体决策方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据目标智能体当前时刻的局部观测值,对每个编号在目标智能体编号之前的智能体当前时刻的动作进行预测,得到每个编号在目标智能体编号之前的智能体当前时刻的预测动作,包括:

3.根据权利要求2所述的方法,其特征在于,所述序列动作预测模型的损失函数为以下表达式:

4.根据权利要求2所述的方法,其特征在于,所述根据目标智能体当前时刻的局部观测值以及每个编号在目标智能体编号之前的智能体当前时刻的预测动作,确定目标智能体当前时刻采取的动作,包括:

5.根据权利要求4所述的方法,其特征在于,所述方法...

【专利技术属性】
技术研发人员:李骁阳张天柱陶建华
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1