【技术实现步骤摘要】
本专利技术涉及无人机救援,尤其是一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法。
技术介绍
1、随着技术的不断进步,无人机在智能化、续航能力、载荷能力、抗干扰性等方面均取得了显著的提升,使其能够适应更多样化的应用场景。
2、然而,在灾难救援任务中,如地震、洪水或泥石流等发生后,灾区往往地形复杂、通讯中断,无人机可能面临基础设施损毁、自然环境恶劣、人为因素干扰等问题,使得无人机处于通信拒止的环境。这时,无人机的感知能力可能会受到严重影响,导致无人机难以发现被困人员或重要线索,降低搜救的成功率。其次,在通信拒止环境下,无人机可能无法实时接收地面控制指令,这对无人机的自主控制决策能力提出了很大的要求。
3、近年来,一些先进的技术如模型预测控制、基于优化的方法和智能优化算法已被成功应用于无人机的决策过程中。这些方法为无人机提供了在复杂环境中进行高效导航和任务执行的能力。但这些方法存在明显的局限性。一方面,很多方法依赖于精确的数学模型,但这些模型很难完全适用于实际、复杂多变的环境。另一方面,这些方法严重依赖于传感器信
...【技术保护点】
1.一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:在无人机与环境的交互过程中,所述的无人机被视为一个搭载了决策模型DDPG-3C的智能体,当智能体从环境中接收到状态信息si时,所述的Actor网络根据状态信息si输出相应的动作ai;智能体随后执行动作ai;执行动作后,环境会对此做出响应si′并返回相应的奖励ri给智能体;随后智能体将状态信息si、动作ai、响应si′、奖励ri存储到经验回放缓冲区中;智能体会定期从经验回放缓冲区中随机
...【技术特征摘要】
1.一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:在无人机与环境的交互过程中,所述的无人机被视为一个搭载了决策模型ddpg-3c的智能体,当智能体从环境中接收到状态信息si时,所述的actor网络根据状态信息si输出相应的动作ai;智能体随后执行动作ai;执行动作后,环境会对此做出响应si′并返回相应的奖励ri给智能体;随后智能体将状态信息si、动作ai、响应si′、奖励ri存储到经验回放缓冲区中;智能体会定期从经验回放缓冲区中随机抽取一个小批量的数据样本来更新actor网络和critic网络的参数。
3.根据权利要求2所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:所述的深度确定性策略梯度决策模型ddpg-3c采用经验回放缓冲机制,通过去除三个估计q值中的最大值,以剩余两个估计q值的平均值作为目标估计q值。
4.根据权利要求2所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:所述的actor网络负责将环境状态转换为动作,其目标为学习一个策略以最大化未来的预期回报,即:
5.根据权利要求4所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征在于:所述的目标actor网络的参数通过软更新策略进行更新:
6.根据权利要求1所述的一种基于深度强化学习的无人机两阶段目标搜索与跟踪方法,其特征...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。