当前位置: 首页 > 专利查询>东南大学专利>正文

一种编队包围的多智能体强化学习方法技术

技术编号:28873279 阅读:31 留言:0更新日期:2021-06-15 23:06
本发明专利技术是一种编队包围的多智能体强化学习方法,特别适用避碰要求和简单闭的包围轨线,包括如下步骤:a)确定强化学习环境中每个智能体的状态空间、动作空间和奖励函数;b)设计每个智能体的演员网络和评判家网络结构;c)由每个智能体的当前状态通过演员网络确定其动作,进而与环境交互得到该动作的奖励值和智能体下一步的状态;d)由所有智能体的动作、当前和下一步的状态通过评判家网络分别确定状态和动作价值函数,进而设计损失函数;e)根据反向传播算法重复步骤c)和d)更新演员和评判家网络中的权值直至期望要求。此种方法简单可靠、不依赖系统模型,能够快速地实现复杂环境中的编队包围任务。

【技术实现步骤摘要】
一种编队包围的多智能体强化学习方法
本专利技术涉及一种编队包围的多智能体强化学习方法。
技术介绍
编队包围,又为协作包围,即多无人系统以一定的队形环绕着目标的控制技术,当前被广泛应用于协同巡逻,目标导航,资源定位和自主救援。目前,绝大多数编队包围设计方法都是基于传统的系统模型,例如(陈杨杨;卫平;基于相对位置的分布式编队球形包围追踪未知目标的方法,中国专利,授权,2017-05-03,ZL201710303014.4.)。与此同时,编队包围一旦加入避碰/避障,传统的控制器设计就变得非常困难,究其原因是控制律容易使得无人系统陷入局部平衡点,无法继续完成对目标的编队包围。强化学习旨在让智能体探索并学习某特定的未知环境,通过奖励函数设置及值函数更新等方法来引导智能体针对特定状态学会决策并做出相应的最优动作,从而获得最大的奖励。这种方法对比以往的控制方法来说,不需要具体且精确地模型,即只要将环境与智能体设定好,便可以通过训练得到理想的结果。强化学习方法在编队包围方面取得一定的进步,但是包围的还只限于静态的圆包围,例如(V.R.KondaandJ本文档来自技高网...

【技术保护点】
1.一种编队包围的多智能体强化学习方法,其特征在于,该方法包括如下步骤:/na)确定强化学习环境中每个智能体的动作空间、状态空间和奖励函数;/nb)设计每个智能体的演员网络和评判家网络结构;/nc)由每个智能体的当前状态通过演员网络确定其动作,进而与环境交互得到该动作的奖励值和智能体下一步的状态;/nd)由所有智能体的动作、当前和下一步的状态通过评判家网络确定动作-状态价值函数,进而设计损失函数;/ne)根据反向传播算法重复步骤c)和d)更新演员和评判家网络中的权值直至期望要求。/n

【技术特征摘要】
1.一种编队包围的多智能体强化学习方法,其特征在于,该方法包括如下步骤:
a)确定强化学习环境中每个智能体的动作空间、状态空间和奖励函数;
b)设计每个智能体的演员网络和评判家网络结构;
c)由每个智能体的当前状态通过演员网络确定其动作,进而与环境交互得到该动作的奖励值和智能体下一步的状态;
d)由所有智能体的动作、当前和下一步的状态通过评判家网络确定动作-状态价值函数,进而设计损失函数;
e)根据反向传播算法重复步骤c)和d)更新演员和评判家网络中的权值直至期望要求。


2.按权利要求1所述的一种编队包围的多智能体强化学习方法,其特征在于:
其中所述步骤a)包括如下情况:
a1)由智能体的动态确定其在强化学习环境中的状态和动作;
a2)设定目标的动态和障碍物的位置,分别计算智能体到目标的距离和极角,智能体到邻居间的相对距离和相对极角以及智能体到外界障碍物的相对距离;
a3)由任务确定强化学习环境中的奖励函数。


3.按权利要求1所述的一种编队包围的多智能体强化学习方法,其特征在于:
其中所述步骤b)包括如下情况:
b1)设计每个...

【专利技术属性】
技术研发人员:陈杨杨徐磊鑫俞睿周珂
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1