一种基于深度强化学习的多无人机感知规避方法及系统技术方案

技术编号:40299439 阅读:13 留言:0更新日期:2024-02-07 20:47
本发明专利技术公开一种基于深度强化学习的多无人机感知规避方法及系统,该方法步骤包括:步骤S1.对多无人机感知规避进行建模,并基于深度强化学习定义观测空间、动作空间以及回报函数,其中各无人机的观测使用无人机状态信息、目标点信息以及雷达探测信息、最近邻交互信息定义得到;步骤S2.对构建的多无人机感知规避模型进行训练,得到训练后多无人机感知规避模型;步骤S3.在被控制的各无人机飞行过程中,获取每个无人机的状态信息、目标点信息以及雷达探测信息、最近邻交互信息,输入至训练后的多无人机感知规避模型中得到对应各无人机的动作决策以实现感知规避。本发明专利技术具有实现方法简单、在线计算量小、感知能力强、可靠性高等优点。

【技术实现步骤摘要】

本专利技术涉及小型多旋翼无人机的感知规避,尤其涉及一种基于深度强化学习的无人机感知规避方法及系统。


技术介绍

1、感知规避是无人机自主执行任务所必需的关键技术之一,直接关系到任务的成败。面向小型多旋翼无人机的感知规避,现有技术中通常是采用规划方法、基于速度障碍的反应式碰壁方法、端到端方法等,但是上述各类方法均具有缺陷。规划方法需要依赖于同时定位与建图(simultaneous localization and mapping,slam),需要的计算资源较多,而小型旋翼无人机常搭载的嵌入式计算平台算力较为有限,因而该类方法实际不适用于小型旋翼无人机中。基于速度障碍(velocity obstacle)的反应式避碰方法通常是基于精确感知环境这一假设,而不是针对机器人所具体搭载的传感器类型展开,难以直接应用到实际的机器人平台上。端到端方法通常是使用神经网络实现传感器数据或者通信信息到机器人控制量的映射,但小型旋翼无人机所能搭载的传感器感知范围大多有限,比如相机有限的视场角等,而纯依靠通信的方法又难以处理环境中未知的障碍物,因而也不适用于小型旋翼无人机中。

本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的多无人机感知规避方法,其特征在于,步骤包括:

2.根据权利要求1所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤S1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行任务的过程时,基于部分可观马尔科夫决策过程构建六元组:其中,是状态空间,Ω是观测空间,是动作空间,是回报函数,是状态转移函数;定义观测空间时,第i个无人机在t时刻的观测定义为:

3.根据权利要求2所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤S1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行任务的过程时,还包括...

【技术特征摘要】

1.一种基于深度强化学习的多无人机感知规避方法,其特征在于,步骤包括:

2.根据权利要求1所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤s1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行任务的过程时,基于部分可观马尔科夫决策过程构建六元组:其中,是状态空间,ω是观测空间,是动作空间,是回报函数,是状态转移函数;定义观测空间时,第i个无人机在t时刻的观测定义为:

3.根据权利要求2所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤s1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行任务的过程时,还包括定义无人机的目标为最大化数值回报信号gt,所述最大化数值回报信号gt定义为:

4.根据权利要求2所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤s1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行任务的过程时,还包括将第i个无人机从初始点飞往目标点gi的无碰轨迹集合定义为:

5.根据权利要求1所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤s1中基于深度强化学习框架定义动作空间以及回报函数包括:

6.根据权利要求5所述的基于深度强化学习的多无人机感知规避方法,其特征在于,与目标点相关的回报项gr具体定义为:

7.根据...

【专利技术属性】
技术研发人员:刘志宏王祥科王冠政胡新雨杨凌杰李晓信刘云昊
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1