多智能体参数共享方法及多智能体系统技术方案

技术编号:38686615 阅读:14 留言:0更新日期:2023-09-02 23:00
本申请公开了一种多智能体参数共享方法及多智能体系统,属于人工智能技术领域。所述方法包括:对多个智能体的时变对比序列进行编码,确定多个智能体的第一抽象特征;利用图注意力机制网络对所述多个智能体的第一抽象特征进行连接组合,得到多个智能体的第二抽象特征;第二抽象特征相较于第一抽象特征为高层抽象特征;根据第一抽象特征为多个智能体分别选择匹配的第一Q网络;其中,所匹配的第一Q网络相同的智能体参数共享;根据第二抽象特征为多个智能体分别选择匹配的第二Q网络;其中,所匹配的第二Q网络相同的智能体参数共享。该方法能够提高多智能体的协作能力。能够提高多智能体的协作能力。能够提高多智能体的协作能力。

【技术实现步骤摘要】
多智能体参数共享方法及多智能体系统


[0001]本申请涉及人工智能
,特别涉及一种多智能体参数共享方法及多智能体系统。

技术介绍

[0002]随着社会的进步和科技的发展,在人工智能
中,智能体(Agent)的应用越来越广泛。智能体是指通过对环境进行感知,并利用既有知识或者自身不断迭代的策略,与环境进行交互,完成指定任务的个体系统。而多个这样的智能体可以组成一个多智能体系统(Multi

Agent System,MAS),可以解决单个智能体能力受限的问题。同时,随着人工智能技术的深入发展,强化学习技术常应用在智能体建模上,以增强智能体的感知、学习、决策能力。另外,多智能体之间的协作也会提高整体系统的能力上限,使系统可以处理更为复杂的任务。因此,协作多智能体强化学习建模应运而生。
[0003]在协作多智能体强化学习建模中,常采用完全参数共享机制,即协作多智能体系统中所有智能体共享一个策略网络(或Q网络)。但是,完全参数共享机制只能为多个智能体提供固定的合作模式,这不仅限制了多个智能体探索多样性的策略,而且不允许智能体根据实时的环境要求灵活地改变其合作模式,导致多个智能体无法根据环境的实时需求建立并改进互补可靠的协作关系,进而导致任务失败。

技术实现思路

[0004]本申请提供了一种多智能体参数共享方法及多智能体系统,既能提高多智能体的协作能力,又不受实验场景复杂程度的限制,具有更好的动态性。所述技术方案如下:
[0005]第一方面,提供了一种多智能体参数共享方法,所述方法包括:
[0006]对多个智能体的时变对比序列进行编码,确定多个智能体的第一抽象特征;利用图注意力机制网络对多个智能体的第一抽象特征进行连接组合,得到多个智能体的第二抽象特征;第二抽象特征相较于第一抽象特征为高层抽象特征;根据第一抽象特征为多个智能体分别选择匹配的第一Q网络;其中,所匹配的第一Q网络相同的智能体参数共享;根据第二抽象特征为多个智能体分别选择匹配的第二Q网络;其中,所匹配的第二Q网络相同的智能体参数共享。
[0007]在一些可能的实现方式中,第一智能体与环境处于交互状态的情况下,若当前时刻不满足第一更新条件,则收集第一智能体的时变对比序列至时变对比序列集合中;第一智能体为多个智能体中的任一个;若当前时刻满足第一更新条件,则对时变对比序列集合中的元素进行编码,得到第一智能体的第一抽象特征。
[0008]在一些可能的实现方式中,将时变对比序列集合中的元素输入门控循环单元,得到时变对比序列对应的第一时序特征;将第一时序特征输入编码器网络,得到隐层高斯分布;对隐层高斯分布进行采样,得到第一智能体的第一抽象特征;清空时变对比序列集合。
[0009]在一些可能的实现方式中,第一智能体与环境处于交互状态的情况下,若当前时
刻满足第二更新条件,则利用图注意力机制网络对多个智能体的第一抽象特征进行连接组合,得到第一智能体的第二抽象特征。
[0010]在一些可能的实现方式中,将第一时序特征输入编码器网络,得到隐层高斯分布之后,方法还包括:将隐层高斯分布收集至隐层高斯分布集合中;利用图注意力机制网络对多个智能体的第一抽象特征进行连接组合,得到第一智能体的第二抽象特征,包括:将隐层高斯分布集合中的元素输入门控循环单元,得到第一智能体的第二时序特征;将第二时序特征输入图注意力机制网络,生成价值分布;利用强化学习方法对价值分布进行采样,得到第一智能体的第二抽象特征;清空隐层高斯分布集合。
[0011]在一些可能的实现方式中,在第一Q网络池中选择与第一智能体的第一抽象特征匹配的第一Q网络,得到第一智能体的第一Q网络;第一智能体为多个智能体中的任一个。
[0012]在一些可能的实现方式中,在第二Q网络池中选择与第一智能体的第二抽象特征匹配的第二Q网络,得到所述第一智能体的第二Q网络;所述第一智能体为所述多个智能体中的任一个。
[0013]在一些可能的实现方式中,确定是否满足预设的网络训练触发条件;若满足网络训练触发条件,则训练并更新神经网络;若不满足网络训练触发条件,则执行步骤:对多个智能体的时变对比序列进行编码,确定多个智能体的第一抽象特征;将多个智能体的第二抽象特征作为差异判别依据,对多个智能体进行分组,得到第二分组结果之后,方法还包括:若不满足预设循环终止条件,则返回执行步骤:对多个智能体的时变对比序列进行编码,确定多个智能体的第一抽象特征;若满足预设循环终止条件,则返回执行步骤:确定是否满足预设的网络训练触发条件。
[0014]本申请第一方面提供的一种多智能体参数共享方法,通过对多个智能体的时变对比序列进行编码,确定多个智能体的第一抽象特征,利用图注意力机制网络对多个智能体的第一抽象特征进行连接组合,得到多个智能体的第二抽象特征,根据第一抽象特征为多个智能体分别选择匹配的第一Q网络,其中所匹配的第一Q网络相同的智能体参数共享;根据第二抽象特征为多个智能体分别选择匹配的第二Q网络,其中,所匹配的第二Q网络相同的智能体参数共享。首先,该方法多智能体提供了多样化策略选择,能够更加精准的辨别智能体之间的差异。其次,该方法在进行参数共享时,Q网络不是固定的,智能体能够根据环境变化适时选择恰当的合作伙伴,同时设置的第一抽象特征和第二抽象特征的最大可采样种类远小于智能体数量,因此本案提出的参数共享机制不容易受到智能体数量增大造成的影响,从而提高了Q网络的可靠性,进而多智能体之间的协作性。另外,该方法中,第二抽象特征是对第一抽象特征进行连接组合得到的,也即,第一抽象特征与第二抽象特征之间存在关联关系,因而基于第一抽象特征与第二抽象特征得到的分组之间也存在关联协作关系,进而提高了多智能体的协作能力,进而提高了整体系统的能力上限,使系统可以处理更为复杂的任务。且该方法进行参数共享时,不受实验场景复杂程度的限制,因而,具有更好的动态性。
[0015]第二方面,提供了一种多智能体系统,该系统包括第一方面提供的多个智能体。
[0016]第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的多智能体参数共享方法。
[0017]可以理解的是,上述第二方面、第三方面的有益效果可以参见上述第一方面中的
相关描述,在此不再赘述。
附图说明
[0018]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本申请实施例提供的不同参数共享机制的示意图;
[0020]图2是本申请实施例提供的一种多智能体参数共享方法的流程图;
[0021]图3是本申请实施例提供的又一例多智能体参数共享方法的流程图;
[0022]图4是本申请实施例提供的一例多智能体参数共享方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多智能体参数共享方法,其特征在于,应用于多智能体系统,所述多智能系统中包括多个智能体,所述方法包括:对所述多个智能体的时变对比序列进行编码,确定所述多个智能体的第一抽象特征;利用图注意力机制网络对所述多个智能体的第一抽象特征进行连接组合,得到所述多个智能体的第二抽象特征;所述第二抽象特征相较于所述第一抽象特征为高层抽象特征;根据所述第一抽象特征为所述多个智能体分别选择匹配的第一Q网络;其中,所匹配的第一Q网络相同的智能体参数共享;根据所述第二抽象特征为所述多个智能体分别选择匹配的第二Q网络;其中,所匹配的第二Q网络相同的智能体参数共享。2.如权利要求1所述的方法,其特征在于,所述对所述多个智能体的时变对比序列进行编码,确定所述多个智能体的第一抽象特征,包括:第一智能体与环境处于交互状态的情况下,若当前时刻不满足第一更新条件,则收集所述第一智能体的时变对比序列至时变对比序列集合中;所述第一智能体为所述多个智能体中的任一个;若当前时刻满足所述第一更新条件,则对所述时变对比序列集合中的元素进行编码,得到所述第一智能体的第一抽象特征。3.根据权利要求2所述的方法,其特征在于,所述对所述时变对比序列集合中的元素进行编码,得到所述第一智能体的第一抽象特征,包括:将所述时变对比序列集合中的元素输入门控循环单元,得到所述时变对比序列对应的第一时序特征;将所述第一时序特征输入编码器网络,得到隐层高斯分布;对所述隐层高斯分布进行采样,得到所述第一智能体的第一抽象特征;清空所述时变对比序列集合。4.根据权利要求3所述的方法,其特征在于,所述利用图注意力机制网络对所述多个智能体的第一抽象特征进行连接组合,得到所述多个智能体的第二抽象特征,包括:所述第一智能体与环境处于交互状态的情况下,若当前时刻满足第二更新条件,则利用图注意力机制网络对所述多个智能体的第一抽象特征进行连接组合,得到所述第一智能体的第二抽象特征。5.根据权利要求4所述的方法,其特征在于,所述第一更新条件根据第一预设周期确定,所述第二更新条件根据第二预设周期确定,所述第二预设周期为所述第一预设周期的整数倍;所述将所述第一时序特征输入编码器网络,得到隐层高斯分布之后,所述方法还包括:将所述隐层高斯分布收集至隐层高斯分布...

【专利技术属性】
技术研发人员:刘岩贺颖于非明仲
申请(专利权)人:人工智能与数字经济广东省实验室深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1