基于强化学习的多智能体动态追捕任务训练方法及装置制造方法及图纸

技术编号：40128319 阅读：8 留言：0更新日期：2024-01-23 21:44

本申请涉及一种基于强化学习的多智能体动态追捕任务训练方法及装置，其中，方法包括：获取连续动态任务池中的所有抓捕任务，并输入任务评估器；进而通过任务评估器和动态追捕策略，评估每个追捕任务的性能，并基于性能评估结果和预设捕获率区间，从所有抓捕任务中筛选目标追捕任务，构建目标追捕任务集合；将目标追捕任务集合和连续动态任务池输入任务采样器，获取当前追捕任务训练分布，并通过仿真器根据训练分布生成多种仿真环境，以训练多智能体强化学习算法。由此，解决了现有技术仅研究环境复杂度低的二维追捕任务，且缺少多个追捕者之间的合作性，性能受到任务初始条件的严重影响，或者存在样本效率低、训练时间长、应用局限性较大等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及课程学习，特别涉及一种基于强化学习的多智能体动态追捕任务训练方法及装置。

技术介绍

1、追捕-逃跑问题是指在一个大小受限且包含障碍物的场景中，多个慢速的追捕者捕获一个或者多个逃跑者的。连续空间追捕-逃跑任务的研究工作在现实世界中也有应用价值，如无人驾驶飞行器和移动机器人所述，该问题的核心挑战是，多个追捕者如何相互合作，在躲避障碍物的前提下，安全地捕获逃跑者。追捕任务的难度受到多种环境因素的影响，包括追捕者和逃跑者的机动能力，追捕场地的大小和维度，障碍物的密集程度等。

2、目前，可通过非学习类追捕方法和基于强化学习的追捕方法解决上述追捕-逃跑问题。其中，非学习类追捕方法可通过设计多种引力和斥力的数学形式，引导追捕者移动，例如，janosov方法假定每个追捕者都会受到逃跑者的吸引力，朝向逃跑者移动，同时受到队友的斥力，防止碰撞；然而该方法贪心追捕逃跑者，且躲避障碍物，缺少多个追捕者之间的合作性，性能严重受到任务初始条件和逃逸策略的影响，因此，在逃跑者策略更加智能或者任务环境复杂度更高的情况下，该类方法几乎完全失效。

3、而为了解决上述问题，现有技术可通过合作追捕方法利用深度强化学习算法，直接控制追捕者的下一步动作，通过与仿真环境交互，迭代更新追捕策略。例如，相关技术可利用参数共享的置信域策略优化算法(trust region policy optimization，trpo)学习一种追捕策略，该策略可协调多个追击者同时攻击逃逸者，证明深度强化学习方法优于非学习类追捕方法。与非学习类方法相比，深度强化

4、尽管基于强化学习的追捕方法已经取得了很大的突破，但这类方法存在根本性缺陷：强化学习的训练方法样本效率低，解决某一种初始条件下的追捕任务，通常需要几天甚至几周的训练时长。而且，基于固定初始条件训练得到的追捕策略，难以应用到不同的场景。例如，空旷场景训练得到的追捕策略，直接应用于障碍物密集的场景，会出现策略崩溃的现象。因此，如何高效地求解追捕者的合作策略，并使其能够应用到不同的场景中，仍然是一个有待解决的问题。

5、另外，目前的追捕方法只研究了二维平面上的追捕问题，任务复杂度低，追捕者可行策略少。而在三维立体场景中，如何让多个追捕者抓捕到一个高速移动的逃跑者，同样是一个未被探索的问题。

6、综上所述，现有技术仅研究环境复杂度低的二维追捕任务，且非学习类追捕方法缺少多个追捕者之间的合作性，性能受到任务初始条件的严重影响，此外，基于强化学习的追捕方法样本效率低、训练时间长、应用局限性较大，亟待解决。

技术实现思路

1、本申请提供一种基于强化学习的多智能体动态追捕任务训练方法及装置，以解决现有技术仅研究环境复杂度低的二维追捕任务，且缺少多个追捕者之间的合作性，性能受到任务初始条件的严重影响，或者存在样本效率低、训练时间长、应用局限性较大等问题。

2、本申请第一方面实施例提供一种基于强化学习的多智能体动态追捕任务训练方法，包括以下步骤：基于预设随机采集策略，获取预设连续动态任务池中的所有抓捕任务，并将所述所有抓捕任务输入至预设的任务评估器中；通过输入抓捕任务后的任务评估器和动态追捕策略，评估每个追捕任务的性能，得到所述每个追捕任务的性能评估结果，并基于所述性能评估结果和预设捕获率区间，从所述所有抓捕任务中筛选至少一个目标追捕任务，并根据所述至少一个目标追捕任务构建目标追捕任务集合；将所述目标追捕任务集合和所述连续动态任务池同时输入到预设的任务采样器，并基于输入所述目标追捕任务集合和所述连续动态任务池后的所述任务采样器，获取当前追捕任务训练分布，并通过预设仿真器根据所述训练分布生成多种仿真环境，以利用所述多种仿真环境训练预设多智能体强化学习算法。

3、可选地，在本申请的一个实施例中，在通过输入抓捕任务后的任务评估器和动态追捕策略，评估每个追捕任务的性能，得到所述每个追捕任务的性能评估结果之前，还包括：获取所述每个追捕任务的配置信息，根据预设划分策略划分所述配置信息，得到所述每个追捕任务的配置划分结果；根据所述配置划分结果生成所述每个追捕任务的多个子任务，基于所述每个追捕任务的多个子任务，构建离散任务池。

4、可选地，在本申请的一个实施例中，所述通过输入抓捕任务后的任务评估器和动态追捕策略，评估每个追捕任务的性能，得到所述每个追捕任务的性能评估结果，并基于所述性能评估结果和预设捕获率区间，从所述所有抓捕任务中筛选至少一个目标追捕任务，包括：生成所述离散任务池中每个子任务对应的多种仿真环境，并根据所述动态追捕策略计算所述每个子任务的平均捕获率；当所述平均捕获率处于所述预设捕获率区间时，将所述平均捕获率对应的子任务存储至预设的课程存档中。

5、可选地，在本申请的一个实施例中，所述将所述目标追捕任务集合和所述连续动态任务池同时输入到预设的任务采样器，并基于输入所述目标追捕任务集合和所述连续动态任务池后的所述任务采样器，获取当前追捕任务训练分布，包括：基于所述预设连续动态任务池和所述课程存档，利用预设取样概率采集多个抓捕任务，并构建所述多个抓捕任务对应的训练分布。

6、本申请第二方面实施例提供一种基于强化学习的多智能体动态追捕任务训练装置，包括：获取模块，用于基于预设随机采集策略，获取预设连续动态任务池中的所有抓捕任务，并将所述所有抓捕任务输入至预设的任务评估器中；评估模块，用于通过输入抓捕任务后的任务评估器和动态追捕策略，评估每个追捕任务的性能，得到所述每个追捕任务的性能评估结果，并基于所述性能评估结果和预设捕获率区间，从所述所有抓捕任务中筛选至少一个目标追捕任务，并根据所述至少一个目标追捕任务构建目标追捕任务集合；生成模块，用于将所述目标追捕任务集合和所述连续动态任务池同时输入到预设的任务采样器，并基于输入所述目标追捕任务集合和所述连续动态任务池后的所述任务采样器，获取当前追捕任务训练分布，并通过预设仿真器根据所述训练分布生成多种仿真环境，以利用所述多种仿真环境训练预设多智能体强化学习算法。

7、可选地，在本申请的一个实施例中，还包括：划分模块，用于在通过输入抓捕任务后的任务评估器和动态追捕策略，评估每个追捕任务的性能，得到所述每个追捕任务的性能评估结果之前获取所述每个追捕任务的配置信息，根据预设划分策略划分所述配置信息，得到所述每个追捕任务的配置划分结果；构建模块，用于根据所述配置划分结果生成所述每个追捕任务的多个子任务，基于所述每个追捕任务的多个子任务，构建离散任务池。

8、可选地，在本申请的一个实施例中，所述评估模块包括：计算单元，用于生成所述离散任务池中每个子任务对应的多种仿真环境，并根据所述动态追捕策略计算所述每个子任务的平均捕获率；存储单元，用于当所述平均捕获率处于所述预设捕获率区间时，将所述平均捕获率对应的子任务存储至预设的课程存档中。

9、可选地，在本申请的一个实施例本文档来自技高网...

【技术保护点】

1.一种基于强化学习的多智能体动态追捕任务训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在通过输入抓捕任务后的任务评估器和动态追捕策略，评估每个追捕任务的性能，得到所述每个追捕任务的性能评估结果之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述通过输入抓捕任务后的任务评估器和动态追捕策略，评估每个追捕任务的性能，得到所述每个追捕任务的性能评估结果，并基于所述性能评估结果和预设捕获率区间，从所述所有抓捕任务中筛选至少一个目标追捕任务，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述目标追捕任务集合和所述连续动态任务池同时输入到预设的任务采样器，并基于输入所述目标追捕任务集合和所述连续动态任务池后的所述任务采样器，获取当前追捕任务训练分布，获取所述目标追捕任务集合的训练分布，包括：

5.一种基于强化学习的多智能体动态追捕任务训练装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，还包括：

7.根据权利要求6所述的装置，其特征在于，所述评估模块包括：

8.根据权利要求7所述的装置，其特征在于，所述生成模块包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的基于强化学习的多智能体动态追捕任务训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的基于强化学习的多智能体动态追捕任务训练方法。

...

【技术特征摘要】

1.一种基于强化学习的多智能体动态追捕任务训练方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的方法，其特征在于，所述将所述目标追捕任务集合和所述连续动态任务池同时输入到预设的任务采样器，并基于输入所述目标追捕任务集合和所述连续动态任务池后的所述任务采样器，获取当前追捕任务训练分布，获...

【专利技术属性】
技术研发人员：汪玉，陈佳煜，于超，阳欣怡，杨华中，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人