一种非凸环境下多智能体自组织协同围捕方法技术

技术编号:40463710 阅读:46 留言:0更新日期:2024-02-22 23:17
本发明专利技术公开了一种非凸环境下多智能体自组织协同围捕方法,包括以下步骤:步骤S1,构建非凸环境下的多智能体围捕模型及围捕任务:采用马尔科夫博弈描述所有智能体的强化学习过程,结合智能体的观测状态对对多智能体进行编队,确定围捕任务;步骤S2,设计多智能体围捕策略:在MADDPG算法基础上结合ResNet和权重采样,得到RW‑MADDPG算法,通过设计围捕奖励函数使智能体在非凸障碍物环境下完成围捕任务。本发明专利技术的非凸环境下多智能体自组织协同围捕方法,有效的避开非凸障碍物,实现对目标的围捕控制,能有效的对静态和动态目标完成围捕任务。

【技术实现步骤摘要】

本专利技术涉及多智能体自动控制,具体涉及一种非凸环境下多智能体自组织协同围捕方法


技术介绍

1、近年来,结合深度神经网络感知能力和强化学习决策能力的深度强化学习(drl)技术逐渐成为研究的热点,尤其在多智能体协同控制领域,包括智能追逃,航迹规划,协作搬运等场景。学术界对代表性问题多智能体追逃问题展开了大量的研究,其中就包括多智能体围捕问题。

2、有的文献提出了一种基于松散偏好规则的自组织方法,通过分解围捕行为,利用松散偏好规则使个体机器人自发形成理想的围捕队形。有的文献提出了一种基于动态围捕点的多机器人协同围捕策略。根据目标位置设置动态围捕点,并利用任务分配方法为围捕机器人分配最佳围捕点。然而这类围捕方法在面对环境变化和突发状况时,需要消耗大量资源重新对外界环境模型进行建模和计算。在群体智能算法方面,有的文献研究的改进glasius生物启发神经网络算法,可以对二维水下目标进行围捕;有的文献提出的基于狼群优化的空间目标围捕方法,解决了三维空间的围捕问题。同样群体优化算法对具体问题和应用环境的依赖非常大,而强化学习算法,通过与环境的交互,不断地试本文档来自技高网...

【技术保护点】

1.一种非凸环境下多智能体自组织协同围捕方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法,其特征在于,所述步骤S1中,用一个元组来表示n个智能体的马尔科夫博弈过程:

3.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法,其特征在于,所述步骤S1中,所述智能体的观测状态至少包括以下内容:

4.根据权利要求3所述的非凸环境下多智能体自组织协同围捕方法,其特征在于,所述步骤S1中,多智能体编队满足以下要求:

5.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法,其特征在于,所述步骤S2...

【技术特征摘要】

1.一种非凸环境下多智能体自组织协同围捕方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法,其特征在于,所述步骤s1中,用一个元组来表示n个智能体的马尔科夫博弈过程:

3.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法,其特征在于,所述步骤s1中,所述智能体的观测状态至少包括以下内容:

4.根据权利要求3所述的非凸环境下多智能体自组织协同围捕方法,其特征在于,所述步骤s1中,多智能体编队满足以下要求:

5.根据权利要求1所述的非凸环境下多智能体自组织协同围捕方法,其特征在于,所述步...

【专利技术属性】
技术研发人员:张红强石佳航吴亮红王汐左词立陈祖国刘朝华陈磊
申请(专利权)人:湖南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1