多智能体协同围捕方法及装置制造方法及图纸

技术编号:41348863 阅读:32 留言:0更新日期:2024-05-20 10:03
多智能体协同围捕方法及装置,涉及深度强化学习和多智能体技术领域。为解决现有技术中存在的,现有协同多智能体围捕的研究,没有考虑围捕任务的特殊性在解决围捕问题方面存在缺点的技术问题,本发明专利技术提供的技术方案为:多智能体协同围捕方法,方法包括:采集智能体逃跑策略、演员网络与中心评论员网络的观测空间、奖励函数和围捕任务完整条件的步骤;构建包括具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络的步骤;对所述演员网络和评论员网络进行预热的步骤;根据所述逃跑策略和奖励函数,更新所述演员网络和评论员网络的步骤;重复更新所述评论员网络,得到训练完成的演员网络的步骤。可以应用于多智能体协同围捕任务工作中。

【技术实现步骤摘要】

涉及深度强化学习和多智能体。


技术介绍

1、作为复杂系统问题中的一个经典案例,多智能体围捕涉及众多智能主体集体协同行动,目的是追踪并截获动态目标。这项技术以其高智能化水平、灵活多样的战术策略、卓越的团队协作能力及较低的运作成本而受到重视。无论是用于城市安全、边境巡逻、重大活动的监控等民用领域,还是用于执行侦查、监视和打击等军事任务,多智能体围捕都展现出了其宽广的应用前景和重要价值。

2、协同多智能体围捕的核心是追逐与逃避的策略博弈,近年来,该领域已近成为了多智能体系统和智体车辆技术研究的焦点,并广泛涉及无人机、自动驾驶汽车、无人船只和无人潜水器等多种平台。在自然界中,群体性的围捕行为十分常见,其主要目标是让捕食者能够在最短的时间里捕获到猎物。通过战略性的团队合作,捕食者可以有效地围堵猎物或者利用周围的环境障碍来限制猎物的逃逸路线。目前,解决这一问题的主流方法包括数值求解方法、仿生策略、基于力的方法、最优控制,以及基于学习的方法。其中,基于学习的方法通过挖掘由环境交互得到的数据特征,提升智能体的智能化水平,进而实现逃跑目标的围捕,这标志着从经验中本文档来自技高网...

【技术保护点】

1.多智能体协同围捕方法,其特征在于,所述方法包括:

2.根据权利要求1所述的多智能体协同围捕方法,其特征在于,所述具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络构建通过MADDPG架构实现。

3.根据权利要求1所述的多智能体协同围捕方法,其特征在于,重复更新所述评论员网络直至达到预设终止条件,以得到训练完成的演员网络。

4.根据权利要求1所述的多智能体协同围捕方法,其特征在于,还包括:在每次更新所述演员网络和评论员网络后,对所述演员网络和评论员网络参数进行软更新的步骤。

5.根据权利要求1所述的多智能体协同围捕方法,其特征在...

【技术特征摘要】

1.多智能体协同围捕方法,其特征在于,所述方法包括:

2.根据权利要求1所述的多智能体协同围捕方法,其特征在于,所述具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络构建通过maddpg架构实现。

3.根据权利要求1所述的多智能体协同围捕方法,其特征在于,重复更新所述评论员网络直至达到预设终止条件,以得到训练完成的演员网络。

4.根据权利要求1所述的多智能体协同围捕方法,其特征在于,还包括:在每次更新所述演员网络和评论员网络后,对所述演员网络和评论员网络参数进行软更新的步骤。

5.根据权利要求1所述的多智能体协同围捕方法,其特征在于,所述预热包括:智能体与环境交互和收集数据的步骤。

6.根...

【专利技术属性】
技术研发人员:李一兵黄雨杰孙骞叶方田园王芮徐定西王杰恪
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1