基于多目标优化的无人机自主决策强化学习方法、系统、设备及存储介质技术方案

技术编号:46522123 阅读:1 留言:0更新日期:2025-09-30 18:48
本申请涉及无人机自主决策技术领域,提供一种基于多目标优化的无人机自主决策强化学习方法、系统、设备及存储介质,解决无人机动态任务分配能力有限、决策能力差的问题。本申请方法包括:基于红外数据和雷达数据,生成可疑目标在目标区域内的移动轨迹预测序列,构建移动概率热力图,目标区域包括已巡查区域;对雷达数据进行多普勒频移分析,生成目标速度矢量场;结合无人机的位置数据,通过区域重划分强化学习模型基于用于多目标优化的奖励函数,输出包含未巡查区域的动态分割方案的无人机自主决策强化学习结果,奖励函数用于体现区域覆盖率最大化、目标追踪成功概率最大化及路径能耗最小化。本申请实现了无人机对未巡查区域的自主智能决策。

【技术实现步骤摘要】

本申请涉及无人机自主决策,尤其涉及一种基于多目标优化的无人机自主决策强化学习方法及系统。


技术介绍

1、在灾害搜救及边境巡查等场景中,多无人机系统需协同完成动态目标追踪与区域覆盖任务。该任务面临三大核心挑战,一是红外与雷达传感器需融合处理,以在复杂环境中检测热信号微弱或遮蔽目标。二是目标移动具强随机性,需实时构建运动模型以提升追踪成功率。三是需同步优化区域覆盖率、目标捕获概率及无人机能耗,且各目标间存在权衡关系。

2、现有方案中采用动作掩码及多智能体近端策略优化算法,在高空无人机广域探测与低空无人机精细扫描结合,通过强化学习优化路径规划,最大化目标捕获数量并最小化区域不确定性。并引入动作掩码规则限制碰撞路径,结合视野编码状态表示法处理输入维度变化,提升算法收敛速度。基于奖励函数综合区域覆盖率、目标捕获数量及路径长度,驱动智能体平衡探索与利用。

3、现有方案仍依赖实时传感器数据,未融合历史巡查信息构建目标移动概率模型,导致对重复出现的隐匿目标预测能力弱。忽略多普勒频移分析,无法生成目标速度矢量场,难以应对突发机动行为。奖励函数侧重目标本文档来自技高网...

【技术保护点】

1.一种基于多目标优化的无人机自主决策强化学习方法,其特征在于,包括:

2.根据权利要求1所述的基于多目标优化的无人机自主决策强化学习方法,其特征在于,所述将所述移动概率热力图和所述目标速度矢量场作为输入特征,并结合无人机的位置数据,通过预先训练好的区域重划分强化学习模型基于用于多目标优化的奖励函数,输出包含未巡查区域的动态分割方案的无人机自主决策强化学习结果,包括:

3.根据权利要求2所述的基于多目标优化的无人机自主决策强化学习方法,其特征在于,所述将所述动态分割方案与实时环境状态绑定,生成包含未巡查区域的动态分割方案的无人机自主决策强化学习结果,包括:

...

【技术特征摘要】

1.一种基于多目标优化的无人机自主决策强化学习方法,其特征在于,包括:

2.根据权利要求1所述的基于多目标优化的无人机自主决策强化学习方法,其特征在于,所述将所述移动概率热力图和所述目标速度矢量场作为输入特征,并结合无人机的位置数据,通过预先训练好的区域重划分强化学习模型基于用于多目标优化的奖励函数,输出包含未巡查区域的动态分割方案的无人机自主决策强化学习结果,包括:

3.根据权利要求2所述的基于多目标优化的无人机自主决策强化学习方法,其特征在于,所述将所述动态分割方案与实时环境状态绑定,生成包含未巡查区域的动态分割方案的无人机自主决策强化学习结果,包括:

4.根据权利要求2所述的基于多目标优化的无人机自主决策强化学习方法,其特征在于,所述基于所述分割参数集合,利用所述用于多目标优化的奖励函数进行多维评估,生成多维评估结果,包括:

5.根据权利要求1所述的基于多目标优化的无人机自主决策强化学习方法,其特征在于,所述基于所述移...

【专利技术属性】
技术研发人员:胡婕郭浩彬干宇雷曾钿叶宗华吴童
申请(专利权)人:珠海翔翼航空技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1