System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种异构多智能体的层次化超图协同方法技术_技高网
当前位置: 首页 > 专利查询>山西大学专利>正文

一种异构多智能体的层次化超图协同方法技术

技术编号:40960528 阅读:9 留言:0更新日期:2024-04-18 20:38
本发明专利技术公开了一种异构多智能体的层次化超图协同方法,属于人工智能技术领域。针对侧重于局部空间的两两交互,忽略了来自不同层次和视角相关联的信息,不能提高协同效率和整体性能问题,通过超图对群体进行层次化建模。根据群体最小划分标准,将在某一维度上具有相同特征的智能体聚集在一起,形成多个异构智能体子群。随后,按照相同的方法,在子群中进行递归操作。在构建的层次化超图中,采用遗憾最小化算法实现子群之间在局部观察状态下的均衡策略。通过反馈机制在子群内部实现协同一致性,从而有效提高群体协同过程中的效率和准确性。

【技术实现步骤摘要】

本专利技术属于人工智能,具体涉及一种异构多智能体的层次化超图协同方法


技术介绍

1、在自然生物中,不论是人类、鸟、昆虫,还是细胞组织等,都在不断变化的环境中,通过简单规则下的相互作用和灵活的反馈机制,使得自由个体在群体中展现出新的特性,形成更高层次的智能行为。在这个现象的启示下,如何揭示并利用自然智能的涌现机理构造多种形式的群体协同方法已经成为重要的研究课题。其中,异构群体的协作尤为重要。在异质群体中,个体既共有一些特征,又具有独特之处,这增加了协作的复杂性和挑战。

2、现有方法主要集中在以物理、模型、规则经验等知识驱动的群体决策方法和以进化算法、强化学习算法为首的数据驱动方法。这些方法往往侧重于局部空间的两两交互,忽略了来自不同层次和视角相关联的信息。传统的单尺度方法难以从各个层面整合有效信息。例如,在无人机群合作的背景下,仅仅关注单个无人机之间的局部交互可能会忽视更广泛的战略需求。因此,为了更好地理解和执行这种多层次的协作,需要更灵活、适应性更强的方法。


技术实现思路

1、本专利技术提供了一种异构多智能体的层次化超图协同方法,旨在克服传统方法的限制,提高协同效率和整体性能。通过引入层次化超图,本专利技术将为异构群体协同领域带来一种创新的、适应性强的解决方案。

2、层次化超图作为一种表示和处理多层次关系的工具,具有在异构群体中建模复杂关系的潜力。超图是一种广义的图结构,其中边可以连接两个以上节点。超图可以很好地刻画节点之间的关联关系,将具有相互作用的节点连接起来,形成一条超边。通过对超边进行条件性约束,实现智能体的协同控制。通过引入层次化超图,可以更全面地捕捉不同层次上个体之间的相互作用,从而为异构群体协同提供更灵活的建模手段。

3、为了达到上述目的,本专利技术采用了下列技术方案:

4、步骤1:构建层次化超图结构;

5、构建一个层次化超图结构g=(s,e,h,w),用以模拟鸟群的群体运动行为,并描述多个异构群体之间的相互作用关系;

6、其中,是一组顶点,a和b表示不同层次,n和m分别表示相应层次的节点个数;表示节点之间的超边,用于捕捉节点之间的关联;h={ha,hb,…,hl}表示层级,通过不同层次的节点和层级,捕捉群体内外的关系,w表示相应关系的权重,反映了相互作用的强度。

7、步骤2:构建群体动力学方程;

8、根据步骤1中得到的超图结构g,个体i的运动方程如下:

9、

10、其中,xi(0)表示个体i的初始位置,δi(t)表示时刻t的位移;t表示运动过程总的时间步,个体i运动误差ei(t)表示为:

11、

12、个体i的运动误差ei(t)是指由超边关系推导得出的个体i期望位置与实际位置之间的差异;控制超边上个体间的最优距离,其中表示节点i与节点j之间的期望距离;为少数知情者跟随领导者运动的控制项,其中为不受群体结构约束的目标节点;当运动误差ei(t)趋于0时,渐近地解决了一致性问题,即:

13、

14、由于的真实取值不确定;因此,用一系列约束来刻画个体之间最优距离的可行域,即一致性协议。

15、步骤3:构建一致性协议;

16、一致性协议包括几何约束、碰撞约束和对齐约束,描述了系统中个体和邻近同伴之间的动态相互作用。首先,将层次化超图分为三层{h1,h2,h3}。h1保留所有节点需遵循的共同约束,如速度对齐,其对齐约束为:

17、

18、其中ρt为目标点的距离半径,为目标点与群体的中心点之间的距离;i(·)为示性函数,当dit<ρt时,表示群体已经移动到目标点附近,此时i(dit-ρt)||ρt-dit||为0;否则,整体将向目标点移动;δn表示移动前后个体数量的变化,为了防止在移动过程中由于与障碍物碰撞的潜在损失;

19、j2表示不同异质子群之间的相互作用关系;其约束公式为:

20、

21、其中为子群gi和子群gj中心点的距离,和分别为子群gi和子群gj聚合点的容错范围;当大于和时,表示子群之间需要聚拢;否则,子群之间的位置关系已在合理范围之内;δn表示移动前后个体数量的变化;

22、h3主要面向子群内部需保持的一致性协议,通过定义半径为ρ,中心点为个体本身的圆来实现;异构个体存在不同的相互作用半径ρ,将ρ={ρ0,ρ1,…,ρm}设置两种情况,ρ0是所有个体必须遵循的避碰半径,包括个体之间的碰撞和个体与障碍物的碰撞;其他{ρ0,ρ1,…,ρm}是同构群中所遵循的规则;因此,其约束设为:

23、

24、单个个体的整体运动反馈ei(t)为三个层次反馈的总和:

25、

26、步骤4:构建学习策略;

27、在每一层中进行单独训练;在h1层,使用单个体强化学习方法ppo实现最小化;此时,动作a(t)=δ(t),瞬时奖励目标是最大化累计奖励:

28、

29、其中e[·]表示均值,γt∈[0,1]表示折扣因子,r(s(t),a(t))表示瞬时奖励,t表示总的运动时间步长;πθ表示动作选择策略,即当前状态下选择某个动作的概率,θ为策略梯度网络优化的参数;因此,我们将策略梯度优化损失表示为:

30、

31、其中πθ表示当前策略;表示旧策略;clip(·)表示截断函数;ε为超参,表示策略更新的幅度;a表示优势函数;当优势值为正时,当前策略与旧策略的比值越大越好;反之,当优势值为负时,其比值越小越好;

32、优势函数表示在状态s(t)下选择动作a(t)的价值,其表达式为:

33、

34、其中γ∈[0,1]表示折扣因子,r(t)表示瞬时奖励,v(s(t+1))和v(s(t))分别表示在t+1时刻和在t时刻状态s的价值,这部分由价值网络评估得出;价值网络损失表示为:

35、

36、其中表示从t时刻开始的累计奖励;v(s(t))为价值网络输出的结果,表示状态s(t)的评估价值;

37、计算策略梯度损失、价值网络损失和熵损失,并对三者进行线性组合,形成ppo算法的总损失,以此适当平衡新旧策略之间的更新,并通过熵损失来鼓励探索性行为。因此,总的损失函数可以表示为:

38、l=l(θ)+λcl(φ)+λeh(π)    (12)

39、其中l(θ)表示策略损失;l(φ)表示价值损失;h(π)=πθlogπθ表示熵损失,用来增加算法的探索性;λc、λe为超参,用来平衡各损失之间的关系;

40、在h2层,异构群体之间既存在合作又存在竞争关系,在有限个子群中,使用遗憾最小化算法实现异构群体间的均衡策略;

41、在h3层,同构群体内部需要相互协作实现避障,并完成拓扑结构的组合;使用带有权重的分布式mappo算法来实现;与h1层相比,此时每个个体的瞬时奖励变为:

本文档来自技高网...

【技术保护点】

1.一种异构多智能体的层次化超图协同方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种异构多智能体的层次化超图协同方法,其特征在于,所述步骤1构建层次化超图结构的具体方法为:

3.根据权利要求1所述的一种异构多智能体的层次化超图协同方法,其特征在于,所述步骤2构建群体动力学方程具体方法为:

4.根据权利要求1所述的一种异构多智能体的层次化超图协同方法,其特征在于,所述步骤3中一致性协议包括几何约束、碰撞约束和对齐约束,描述了系统中个体和邻近同伴之间的动态相互作用;构建一致性协议具体方法为:

5.根据权利要求1所述的一种异构多智能体的层次化超图协同方法,其特征在于,所述步骤4构建学习策略的具体方法为:

【技术特征摘要】

1.一种异构多智能体的层次化超图协同方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种异构多智能体的层次化超图协同方法,其特征在于,所述步骤1构建层次化超图结构的具体方法为:

3.根据权利要求1所述的一种异构多智能体的层次化超图协同方法,其特征在于,所述步骤2构建群体动力学方程具体方法为:

...

【专利技术属性】
技术研发人员:靳帅钱宇华李飞江刘郭庆
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1