【技术实现步骤摘要】
本专利技术涉及无人艇集群多目标追踪,具体而言,尤其涉及一种面向无人艇集群多目标追踪策略的强化学习推理方法。
技术介绍
1、随着单体无人艇控制技术的快速发展与成熟应用,多无人艇协同作战已经成为可能,无人艇集群多目标追踪逐渐成为其对抗博弈的重要模态。无人艇集群通过学习推理,为对抗博弈任务优化调配集群资源,基于追踪目标与单体无人艇的约束条件,为各无人艇进行目标分配,从而实现无人艇集群对多目标的追踪拦截。当前,无人艇集群多目标追踪对抗博弈的难点在于,海洋环境复杂多变,同时单体无人艇的状态也在不断发生变化。此外,多智能体系统对抗博弈的复杂性会随着智能体数量的增长呈指数级增长。因此,迫切需要一个无人系统集群对抗博弈学习推理方法来应对这一多维挑战。近年来,随着传感器技术、通信技术以及高性能计算技术的快速发展,强化学习技术在各个研究领域得到了广泛的探索。不同于传统的无人艇集群控制算法,强化学习不依赖于外部环境条件,主要利用奖励函数优化控制策略,在大规模复杂场景中具有明显优势。因此,利用强化学习算法对无人艇集群进行学习推理从而实现多目标追踪拦截成为了新的
<本文档来自技高网...【技术保护点】
1.一种面向无人艇集群多目标追踪策略的强化学习推理方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的面向无人艇集群多目标追踪策略的强化学习推理方法,其特征在于,S1中,无人艇集群数量设为n个,单艘无人艇表示为USVi,追踪目标数量设为m个,无人艇分配的对应追踪目标表示为Tj,i和j表示索引下标,所述单艘无人艇的离散动力学模型用下式表示:
3.根据权利要求1所述的面向无人艇集群多目标追踪策略的强化学习推理方法,其特征在于,S2中,所述五元组包括无人艇集群和追踪目标的状态空间S、动作空间A、状态转移函数P、奖励函数R以及折扣因子γ;
...【技术特征摘要】
1.一种面向无人艇集群多目标追踪策略的强化学习推理方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的面向无人艇集群多目标追踪策略的强化学习推理方法,其特征在于,s1中,无人艇集群数量设为n个,单艘无人艇表示为usvi,追踪目标数量设为m个,无人艇分配的对应追踪目标表示为tj,i和j表示索引下标,所述单艘无人艇的离散动力学模型用下式表示:
3.根据权利要求1所述的面向无人艇集群多目标追踪策略的强化学习推理方法,其特征在于,s2中,所述五元组包括无人艇集群和追踪目标的状态空间s、动作空间a、状态转移函数p、奖励函数r以及折扣因子γ;
4.根据权利要求3所述的面向无人艇集群多目标追踪策略的强化学习推理方法,其特征在于,rt表示目标追踪奖励,定义为:
5.根据权利要求1所述的面向无人艇集群多目标追踪策略的强化学习推理方法,其特征在于,s3中,根据五元组中的状态空间和动作空间,建立多智能体深度确定...
【专利技术属性】
技术研发人员:彭周华,温家一,夏枫倍,王安青,张卫东,朱景伟,谢威,古楠,王浩亮,王丹,胡小波,
申请(专利权)人:大连海事大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。