当前位置: 首页 > 专利查询>东南大学专利>正文

通信资源受限下基于深度强化学习的多智能体协同决策方法技术

技术编号:38226462 阅读:13 留言:0更新日期:2023-07-25 17:56
本发明专利技术公开了一种通信资源受限下基于深度强化学习的多智能体协同决策方法,智能体在本地学习观测重要性权重的评估,通过局部搜索算法进行集中式分配信道,通信完成后智能体基于多头自注意力机制进行消息整合和特征提取,并在评估网络中加入消息整合模块以生成一个特定于智能体的全局观测用于评估当前价值,指导策略网络参数的训练,最终形成一个基于通信的多智能体协同决策方法。该方法有效应对智能体坐标的不断变化以及通信智能体的改变导致的时变拓扑问题,智能体对维度不断变化的输入信息进行整合,并且该方法适用范围较广,在保证不发生通信冲突的基础上,最大限度的利用了有限的信道资源,有良好的经济效益和社会效益,适合推广使用。适合推广使用。适合推广使用。

【技术实现步骤摘要】
通信资源受限下基于深度强化学习的多智能体协同决策方法


[0001]本专利技术属于多智能体协同决策领域,主要设计了一种通信资源受限下基于深度强化学习的多智能体协同决策方法。

技术介绍

[0002]近年来,深度强化学习在一系列具有挑战性的任务中取得了显著的成功。受深度强化学习强大的感知和学习能力的启发,研究人员不断尝试将深度强化学习应用于多智能体领域,以促进多智能体合作行为。人类社会中存在许多合作问题,如自动驾驶、交通灯控制、导航制导和智能电网控制。它们可以自然地形成合作的多智能体系统,目标是从团队的角度最大化回报。
[0003]以最广泛的追逃场景为例,目前追逃问题场景中大多都是设定追捕智能体性能优于或等于逃逸目标,而针对追捕智能体性能相对于逃逸目标处于劣势的场景,则需要研究更为复杂和精确的模型,以充分利用集群的优势,处理这种非同等运动参数条件下的追捕问题,通过多智能体协同合作,完成对高性能逃逸目标的协同追捕。
[0004]针对此类问题,传统的方法是基于数学模型的方法设计的智能体控制策略,对敌方运动往往作了假定约束或者需要知道对方的控制策略,但是在战场环境下己方很难获知敌方的控制策略,同时基于数学模型设置的控制器参数往往是人工设定或者需要借助其他算法进行优化,一旦环境模型发生改变,原来旧的控制器参数可能就不是最优的,具有一定的局限性。现有的多智能体强化学习多数采用集中式训练,分散式执行的模式,针对追捕环境这类完全合作型场景,在分散式执行过程中,每个智能体仅根据本地局部观测信息进行决策,而不与其他友军智能体进行通信,因为部分可观测性和随机性很容易破坏学习到的合作策略,导致集中训练时学习的协作策略出现偏差,难以实现智能体之间的协同合作。目前大多研究假设所有的智能体都可以自由地相互通信。然而,在现实中,由于带宽和通信范围有限,智能体可能无法收到距离较远的其他智能体的信息,而且在极端环境下有限的带宽难以满足所有智能体的通信需要,在每个周期内只能有部分智能体可以进行通信。

技术实现思路

[0005]为了解决上述问题,本专利技术公开了一种通信资源受限下基于深度强化学习的多智能体协同决策方法,智能体在本地学习观测重要性权重的评估,并通过局部搜索算法进行集中式分配信道,通信完成后智能体基于多头自注意力机制进行消息整合和特征提取,并在评估网络中加入Transformer模块以生成一个特定于智能体的全局观测用于评估当前价值,指导策略网络参数的训练,最终形成一个基于通信的多智能体协同追捕策略。
[0006]为达到上述目的,本专利技术的技术方案如下:
[0007]一种通信资源受限下基于深度强化学习的多智能体协同决策方法,该方法针对通信资源受限的多智能体局部可观测的协同环境,信道分配部分采用PPO算法学习本地观测的重要性,根据网络拓扑图构建通信冲突图,采用局部搜索算法进行信道分配,智能体基于
多头自注意力机制整合接收到的数据,并通过MAPPO算法学习智能体控制策略,完成协同追捕任务,具体步骤如下:
[0008]步骤1:初始化环境参数,对智能体Actor和Critic中所有网络参数进行正交初始化,设定智能体的简化动力学方程;
[0009]步骤2:随机分配友军智能体和目标的坐标p
i
=[p
i,x
,p
i,y
],初始速度v
i
=[v
i,x
,v
i,y
]为0;
[0010]步骤3:设定协作追捕的奖励函数其中包括和目标距离相关的个人奖励和团队奖励以及智能体间的碰撞惩罚和目标的捕获奖励β1、β2、β3、β4为比例系数;
[0011]步骤4:每个智能体获得本地局部观测o
i
,输入至Encoder层和GRU层进行特征提取,将其输出作为通信的内容m
i
,将观测o
i
输入至权重生成器策略网络π
c
得到本地观测的重要性权重策略,输出为Beta分布的两个参数α和β,对该分布进行采样得到重要性权重参数w
i

[0012]步骤5:每个智能体将自己的观测重要性权重发送至团队的Leader进行通信信道的申请,Leader收集所有智能体的权重,构建冲突图,通过局部搜索算法产生无通信冲突的信道分配策略,在不造成通信冲突的情况下最大化利用有限信道情况,并将分配结果广播给其余智能体,所有智能体根据该时刻的信道分配结果进行通信;
[0013]步骤6:该轮通信完成后,每个智能体将该周期内收集到的所有数据输入至多头自注意力层进行信息整合和特征提取,生成m

i
,并拼接原始本地信息m
i
输入至智能体的策略网络π
a
,并将输出进行采样得到最终的动作作用至智能体上,得到该时刻的环境反馈数据(o
t+1
,r
t
,done
t
,adj
t+1
),其中,o
t+1
为下一时刻的观测值,r
t
为当前时刻的奖励,done
t
用于标识当前时刻回合是否结束,adj
t+1
表示下一时刻的通信拓扑情况;
[0014]步骤7:以上步骤4、5、6完成了一个轨迹样本收集过程,将轨迹样本保存至回放缓冲池中,轨迹样本内容为(o
t
,a
t
,o
t+1
,r
t
,done
t
,adj
t
),其中,o
t
和o
t+1
为当前时刻和下一时刻的观测值,a
t
为当前时刻的动作,r
t
为当前时刻的奖励,done
t
用于标识当前时刻回合是否结束,adj
t
表示下一时刻的通信拓扑情况。根据done
t
判断该回合是否结束,结束则跳回至步骤2继续收集数据直至回放缓冲池数据达到要求;
[0015]步骤8:抽取轨迹样本数据,基于轨迹样本分别使用广义优势函数估计方法计算每个轨迹样本所有智能体的优势函数其中,λ为GAE中的折扣因子,γ为奖励的折扣因子,表示t时刻的时间差分误差,r为当前时刻的奖励,t和V(s
t+1
)为当前时刻和下一时刻的状态价值函数;
[0016]步骤9:对于智能体控制策略网络π
a
,以当前策略网络给出的策略为基准,迭代更新策略网络的参数来取得性能更好的策略,对偶策略网络损失函数的采用可以减少训练的方差同时保证模型收敛,策略参数更新的损失函数为:
[0017][0018]其中为新旧策略的比例系数,为优势函数,clip(
·
)函数用于对进行裁剪,限制在[1

∈,1+∈]区间内,∈为裁剪的超参数,S(
·
)为策略熵,σ为相应的策略本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通信资源受限下基于深度强化学习的多智能体协同决策方法,其特征在于,所述方法包括以下步骤:步骤1:初始化环境参数,对智能体Actor和Critic中所有网络参数进行正交初始化,设定智能体的简化动力学方程;步骤2:随机分配友军智能体和目标的坐标p
i
=[p
i,x
,p
i,y
],初始速度v
i
=[v
i,x
,v
i,y
]为0;步骤3:设定协作追捕的奖励函数其中包括和目标距离相关的个人奖励和团队奖励以及智能体间的碰撞惩罚和目标的捕获奖励β1、β2、β3、β4为比例系数;步骤4:每个智能体获得本地局部观测o
i
,输入至Encoder层和GRU层进行特征提取,将其输出作为通信的内容m
i
,将观测o
i
输入至权重生成器策略网络π
c
得到本地观测的重要性权重策略,输出为Beta分布的两个参数α和β,对该分布进行采样得到重要性权重参数w
i
;步骤5:每个智能体将自己的观测重要性权重发送至团队的Leader进行通信信道的申请,Leader收集所有智能体的权重,构建冲突图,通过局部搜索算法产生无通信冲突的信道分配策略,在不造成通信冲突的情况下最大化利用有限信道情况,并将分配结果广播给其余智能体,所有智能体根据该时刻的信道分配结果进行通信;步骤6:该轮通信完成后,每个智能体将该周期内收集到的所有数据输入至多头自注意力层进行信息整合和特征提取,生成m

i
,并拼接原始本地信息m
i
输入至智能体的策略网络π
a
,并将输出进行采样得到最终的动作作用至智能体上,得到该时刻的环境反馈数据(o
t+1
,r
t
,done
t
,adj
t+1
),其中,o
t+1
为下一时刻的观测值,r
t
为当前时刻的奖励,done
t
用于标识当前时刻回合是否结束,adj
t+1
表示下一时刻的通信拓扑情况;步骤7:以上步骤4、5、6完成了一个轨迹样本收集过程,将轨迹样本保存至回放缓冲池中,轨迹样本内容为(o
t
,a
t
,o
t+1
,r
t
,done
t
,adj
t
),其中,o
t
和o
t+1
为当前时刻和下一时刻的观测值,a
t
为当前时刻的动作,r
t
为当前时刻的奖励,done
t
用于标识当前时刻回合是否结束,adj
t
表示下一时刻的通信拓扑情况,根据done
t
判断该回合是否结束,结束则跳回至步骤2继续收集数据直至回放缓冲池数据达到要求;步骤8:抽取轨迹样本数据,基于轨迹样本分别使用广义优势函数估计方法计算每个轨迹样本所有智能体的优势函数其中,λ为GAE中的折扣因子,γ为奖励的折扣因子,表示t时刻的时间差分误差,r
t
为当前时刻的奖励,V(s
t
)和V(s
t+1
)为当前时刻和下一时刻的状态价值函数;步骤9:对于智能体控制策略网络π
a
,以当前策略网络给出的策略为基准,迭代更新策略网络的参数来取得性能更好的策略,对偶策略网络损失函数的采用可以减少训练的方差同时保证模型收敛,策略参数更新的损失函数为:其中为新旧策略的比例系数,为优势函数,clip(
·
)函...

【专利技术属性】
技术研发人员:曹向辉邓宇邦
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1