【技术实现步骤摘要】
涉及深度强化学习和多智能体。
技术介绍
1、作为复杂系统问题中的一个经典案例,多智能体围捕涉及众多智能主体集体协同行动,目的是追踪并截获动态目标。这项技术以其高智能化水平、灵活多样的战术策略、卓越的团队协作能力及较低的运作成本而受到重视。无论是用于城市安全、边境巡逻、重大活动的监控等民用领域,还是用于执行侦查、监视和打击等军事任务,多智能体围捕都展现出了其宽广的应用前景和重要价值。
2、协同多智能体围捕的核心是追逐与逃避的策略博弈,近年来,该领域已近成为了多智能体系统和智体车辆技术研究的焦点,并广泛涉及无人机、自动驾驶汽车、无人船只和无人潜水器等多种平台。在自然界中,群体性的围捕行为十分常见,其主要目标是让捕食者能够在最短的时间里捕获到猎物。通过战略性的团队合作,捕食者可以有效地围堵猎物或者利用周围的环境障碍来限制猎物的逃逸路线。目前,解决这一问题的主流方法包括数值求解方法、仿生策略、基于力的方法、最优控制,以及基于学习的方法。其中,基于学习的方法通过挖掘由环境交互得到的数据特征,提升智能体的智能化水平,进而实现逃跑目标的围
...【技术保护点】
1.多智能体协同围捕方法,其特征在于,所述方法包括:
2.根据权利要求1所述的多智能体协同围捕方法,其特征在于,所述具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络构建通过MADDPG架构实现。
3.根据权利要求1所述的多智能体协同围捕方法,其特征在于,重复更新所述评论员网络直至达到预设终止条件,以得到训练完成的演员网络。
4.根据权利要求1所述的多智能体协同围捕方法,其特征在于,还包括:在每次更新所述演员网络和评论员网络后,对所述演员网络和评论员网络参数进行软更新的步骤。
5.根据权利要求1所述的多智能体协
...【技术特征摘要】
1.多智能体协同围捕方法,其特征在于,所述方法包括:
2.根据权利要求1所述的多智能体协同围捕方法,其特征在于,所述具有目标预测网络的演员网络以及具有成员状态编码器的评论员网络构建通过maddpg架构实现。
3.根据权利要求1所述的多智能体协同围捕方法,其特征在于,重复更新所述评论员网络直至达到预设终止条件,以得到训练完成的演员网络。
4.根据权利要求1所述的多智能体协同围捕方法,其特征在于,还包括:在每次更新所述演员网络和评论员网络后,对所述演员网络和评论员网络参数进行软更新的步骤。
5.根据权利要求1所述的多智能体协同围捕方法,其特征在于,所述预热包括:智能体与环境交互和收集数据的步骤。
6.根...
【专利技术属性】
技术研发人员:李一兵,黄雨杰,孙骞,叶方,田园,王芮,徐定西,王杰恪,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。