一种非凸环境下多智能体自组织协同围捕方法技术

技术编号：40463710 阅读：8 留言：0更新日期：2024-02-22 23:17

本发明专利技术公开了一种非凸环境下多智能体自组织协同围捕方法，包括以下步骤：步骤S1，构建非凸环境下的多智能体围捕模型及围捕任务：采用马尔科夫博弈描述所有智能体的强化学习过程，结合智能体的观测状态对对多智能体进行编队，确定围捕任务；步骤S2，设计多智能体围捕策略：在MADDPG算法基础上结合ResNet和权重采样，得到RW‑MADDPG算法，通过设计围捕奖励函数使智能体在非凸障碍物环境下完成围捕任务。本发明专利技术的非凸环境下多智能体自组织协同围捕方法，有效的避开非凸障碍物，实现对目标的围捕控制，能有效的对静态和动态目标完成围捕任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多智能体自动控制，具体涉及一种非凸环境下多智能体自组织协同围捕方法。

技术介绍

1、近年来，结合深度神经网络感知能力和强化学习决策能力的深度强化学习(drl)技术逐渐成为研究的热点，尤其在多智能体协同控制领域，包括智能追逃，航迹规划，协作搬运等场景。学术界对代表性问题多智能体追逃问题展开了大量的研究，其中就包括多智能体围捕问题。

2、有的文献提出了一种基于松散偏好规则的自组织方法，通过分解围捕行为，利用松散偏好规则使个体机器人自发形成理想的围捕队形。有的文献提出了一种基于动态围捕点的多机器人协同围捕策略。根据目标位置设置动态围捕点，并利用任务分配方法为围捕机器人分配最佳围捕点。然而这类围捕方法在面对环境变化和突发状况时，需要消耗大量资源重新对外界环境模型进行建模和计算。在群体智能算法方面，有的文献研究的改进glasius生物启发神经网络算法，可以对二维水下目标进行围捕；有的文献提出的基于狼群优化的空间目标围捕方法，解决了三维空间的围捕问题。同样群体优化算法对具体问题和应用环境的依赖非常大，而强化学习算法，通过与环境的交互，不断地试错学习，应用最为广泛。在多智能体追逃问题中，研究者们对其计算难度大、存在维度爆炸的问题做出了各种改进与尝试。有的文献中提出了一种基于无模型q-learning的多智能体决策算法，但该算法只对静态环境下有效。2017年，openai发表的maddpg算法，将ac算法进行一系列改进，使其能够适用于复杂多智能体场景。有的文献提出基于改进的maddpg算法，通过结合内部奖励和外部环境来

3、上述文献在不同层面给出了很多关于多智能系统问题的有效算法，最终都是为了更快更有效的完成训练任务，但仍存在一些问题：

4、1)很少考虑实际环境中的障碍物，尤其是面对非凸障碍物时存在是否会导致智能体无法完成任务要求的问题。

5、2)针对复杂任务，训练的时长会大量的增加，存在能否提高智能体的训练效率问题。

6、3)在面对稀疏奖励时，奖励值高的经验在经验池中占比少，存在能否充分利用经验池的数据，提高采样效果的问题。

技术实现思路

1、本专利技术要解决的技术问题就在于：本专利技术提供一种非凸环境下多智能体自组织协同围捕方法，能有效的对静态和动态目标完成围捕任务。

2、为解决上述技术问题，本专利技术提出的技术方案为：

3、一种非凸环境下多智能体自组织协同围捕方法，包括以下步骤：

4、步骤s1，构建非凸环境下的多智能体围捕模型及围捕任务：采用马尔科夫博弈描述所有智能体的强化学习过程，结合智能体的观测状态对对多智能体进行编队，确定围捕任务；

5、步骤s2，设计多智能体围捕策略：在maddpg算法基础上结合resnet和权重采样，得到rw-maddpg算法，通过设计围捕奖励函数使智能体在非凸障碍物环境下完成围捕任务。

6、作为上述技术方案的进一步改进为：

7、更进一步地，所述步骤s1中，用一个元组来表示n个智能体的马尔科夫博弈过程：

8、μ＝(n,s,a1,...,an,p,γ,r1,...,rn) (1)

9、式中，n表示n个智能体；s表示系统的状态空间，包括环境状态信息和所有智能体的状态信息；ai＝[v1,v2,...vl]表示智能体i的动作空间；l表示动作空间的维度；

10、所有成员的动作空间构成多智能体系统空间，由n个智能体构成的系统动作空间表示为a＝[a1,a2,...an]；

11、p为状态转移概率分布，表示在状态s时多智能体采取联合动作[a1,a2,...an]后状态转移到s'时的概率分布；

12、ri(s,a1,a2,...,an,s')表示智能体i在状态s时系统采取联合动作后转变成状态s'得到的回报；

13、计算多智能体系统在t时刻的累积回报的公式：

14、

15、更进一步地，所述步骤s1中，所述智能体的观测状态至少包括以下内容：

16、2)智能体自身和队友的运动学信息，采用位置信息

17、4)目标在空间中的运动学信息，包括目标的位置和速度

18、3)围捕任务相关的控制量信息，包括自己和目标的距离ρi，与相邻队友之间的距离。

19、更进一步地，所述步骤s1中，多智能体编队满足以下要求：

20、1)编队构型由多个智能体组成的内部包含目标的凸多边形；

21、2)多智能体编队根据目标的位置调整位置，并将目标限制在编队内部；

22、3)在编队构型中，凸多边形的任何顶点都可以被组中的任何智能体占据。

23、更进一步地，所述步骤s2中，包括以下详细步骤：

24、s2-1，maddpg算法：每个智能体存在两个网络，一个是actor网络进行策略动作探索，另一个是中心化的critic网络对actor网络进行策略评估；

25、s2-2，结合残差结构优化maddpg算法；

26、s2-3，改善经验池数据利用率：优先经验回放或者改进随机经验回放方式；

27、s2-4，设计奖励函数：设计基于优先级的奖励函数，在保证不碰撞的前提下，避开障碍物，然后抵达围捕半径，待所有智能体都抵达之后，再进行队形控制。

28、更进一步地，所述优先经验回放中使用重要性采样使每个样本被采样的概率不同，但对梯度下降的影响相同，重要性采样权重ωj为：

29、ωj＝(m×p(i))β (8)

30、式中，m为样本池中样本个数；β为重要性采样参数，β决定了优先经验回放对样本分布影响的程度，若β＝1时退化为传统经验回放；

31、加入样本优先级后的损失函数表达式如下：

32、

33、更进一步地，所述改进随机经验回放方式为每次进入经验池的数据权重都置1，每次被采样的数据权重乘一个权重因子。

34、更进一步地，每个智能体的奖励函数包括四个部分，分别是避障奖励、逃逸奖励、环航半径奖励、相邻间距奖励，具体为：

35、(1)避障奖励：当前智能体每次接近到安全距离会被认定为碰撞，给予负奖励，否则为0，避障奖励如下：

36、

37、其中，k1是权重系数，di和dk分别是智能体ri和障碍物ok的安全半径，||ρi-ρk|本文档来自技高网...

【技术保护点】

1.一种非凸环境下多智能体自组织协同围捕方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述步骤S1中，用一个元组来表示n个智能体的马尔科夫博弈过程：

3.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述步骤S1中，所述智能体的观测状态至少包括以下内容：

4.根据权利要求3所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述步骤S1中，多智能体编队满足以下要求：

5.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述步骤S2中，包括以下详细步骤：

6.根据权利要求5所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述优先经验回放中使用重要性采样使每个样本被采样的概率不同，但对梯度下降的影响相同，重要性采样权重ωj为：

7.根据权利要求6所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述改进随机经验回放方式为每次进入经验池的数据权重都置1，每次被采样的数据权重乘一个权重因子。</p>

8.根据权利要求5所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，每个智能体的奖励函数包括四个部分，分别是避障奖励、逃逸奖励、环航半径奖励、相邻间距奖励，具体为：

...

【技术特征摘要】

1.一种非凸环境下多智能体自组织协同围捕方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述步骤s1中，用一个元组来表示n个智能体的马尔科夫博弈过程：

3.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述步骤s1中，所述智能体的观测状态至少包括以下内容：

4.根据权利要求3所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述步骤s1中，多智能体编队满足以下要求：

5.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法，其特征在于，所述步...

【专利技术属性】
技术研发人员：张红强，石佳航，吴亮红，王汐，左词立，陈祖国，刘朝华，陈磊，
申请(专利权)人：湖南科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人