当前位置: 首页 > 专利查询>中山大学专利>正文

基于深度强化学习的无人机两阶段目标搜索与跟踪方法技术

技术编号:43782080 阅读:44 留言:0更新日期:2024-12-24 16:17
本发明专利技术提供一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,包括将搜索与救援任务分为搜索阶段和跟踪阶段;每个阶段都搭载有相应的决策模型DDPG‑3C,通过判定检测目标是否在无人机的雷达探测范围内,以进行搜索阶段和跟踪阶段的切换。每个阶段都能针对性地优化其控制策略和算法,在搜索阶段扩大搜索范围和提高发现速度,在跟踪阶段则专注于提高对动态目标的追踪精度和响应速度,提高了各阶段的效率;DDPG‑3C模型不依赖于精确的数学模型来进行决策,使得本发明专利技术在面对复杂和动态变化的环境时能够展现出更强的适应性,通过与环境的交互来学习和优化策略,而不是依赖预先定义的模型参数,从而能够更好地应对未知或变化的条件。

【技术实现步骤摘要】

本专利技术涉及无人机救援,尤其是一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法


技术介绍

1、随着技术的不断进步,无人机在智能化、续航能力、载荷能力、抗干扰性等方面均取得了显著的提升,使其能够适应更多样化的应用场景。

2、然而,在灾难救援任务中,如地震、洪水或泥石流等发生后,灾区往往地形复杂、通讯中断,无人机可能面临基础设施损毁、自然环境恶劣、人为因素干扰等问题,使得无人机处于通信拒止的环境。这时,无人机的感知能力可能会受到严重影响,导致无人机难以发现被困人员或重要线索,降低搜救的成功率。其次,在通信拒止环境下,无人机可能无法实时接收地面控制指令,这对无人机的自主控制决策能力提出了很大的要求。

3、近年来,一些先进的技术如模型预测控制、基于优化的方法和智能优化算法已被成功应用于无人机的决策过程中。这些方法为无人机提供了在复杂环境中进行高效导航和任务执行的能力。但这些方法存在明显的局限性。一方面,很多方法依赖于精确的数学模型,但这些模型很难完全适用于实际、复杂多变的环境。另一方面,这些方法严重依赖于传感器信息,而传感器的准确性本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:在无人机与环境的交互过程中,所述的无人机被视为一个搭载了决策模型DDPG-3C的智能体,当智能体从环境中接收到状态信息si时,所述的Actor网络根据状态信息si输出相应的动作ai;智能体随后执行动作ai;执行动作后,环境会对此做出响应si′并返回相应的奖励ri给智能体;随后智能体将状态信息si、动作ai、响应si′、奖励ri存储到经验回放缓冲区中;智能体会定期从经验回放缓冲区中随机抽取一个小批量的数据...

【技术特征摘要】

1.一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:在无人机与环境的交互过程中,所述的无人机被视为一个搭载了决策模型ddpg-3c的智能体,当智能体从环境中接收到状态信息si时,所述的actor网络根据状态信息si输出相应的动作ai;智能体随后执行动作ai;执行动作后,环境会对此做出响应si′并返回相应的奖励ri给智能体;随后智能体将状态信息si、动作ai、响应si′、奖励ri存储到经验回放缓冲区中;智能体会定期从经验回放缓冲区中随机抽取一个小批量的数据样本来更新actor网络和critic网络的参数。

3.根据权利要求2所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:所述的深度确定性策略梯度决策模型ddpg-3c采用经验回放缓冲机制,通过去除三个估计q值中的最大值,以剩余两个估计q值的平均值作为目标估计q值。

4.根据权利要求2所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:所述的actor网络负责将环境状态转换为动作,其目标为学习一个策略以最大化未来的预期回报,即:

5.根据权利要求4所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:所述的目标actor网络的参数通过软更新策略进行更新:

6.根据权利要求1所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征...

【专利技术属性】
技术研发人员:刘昆刘美
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1