【技术实现步骤摘要】
本专利技术涉及小型多旋翼无人机的感知规避,尤其涉及一种基于深度强化学习的无人机感知规避方法及系统。
技术介绍
1、感知规避是无人机自主执行任务所必需的关键技术之一,直接关系到任务的成败。面向小型多旋翼无人机的感知规避,现有技术中通常是采用规划方法、基于速度障碍的反应式碰壁方法、端到端方法等,但是上述各类方法均具有缺陷。规划方法需要依赖于同时定位与建图(simultaneous localization and mapping,slam),需要的计算资源较多,而小型旋翼无人机常搭载的嵌入式计算平台算力较为有限,因而该类方法实际不适用于小型旋翼无人机中。基于速度障碍(velocity obstacle)的反应式避碰方法通常是基于精确感知环境这一假设,而不是针对机器人所具体搭载的传感器类型展开,难以直接应用到实际的机器人平台上。端到端方法通常是使用神经网络实现传感器数据或者通信信息到机器人控制量的映射,但小型旋翼无人机所能搭载的传感器感知范围大多有限,比如相机有限的视场角等,而纯依靠通信的方法又难以处理环境中未知的障碍物,因而也不适用于小型旋
本文档来自技高网...【技术保护点】
1.一种基于深度强化学习的多无人机感知规避方法,其特征在于,步骤包括:
2.根据权利要求1所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤S1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行任务的过程时,基于部分可观马尔科夫决策过程构建六元组:其中,是状态空间,Ω是观测空间,是动作空间,是回报函数,是状态转移函数;定义观测空间时,第i个无人机在t时刻的观测定义为:
3.根据权利要求2所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤S1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行
...【技术特征摘要】
1.一种基于深度强化学习的多无人机感知规避方法,其特征在于,步骤包括:
2.根据权利要求1所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤s1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行任务的过程时,基于部分可观马尔科夫决策过程构建六元组:其中,是状态空间,ω是观测空间,是动作空间,是回报函数,是状态转移函数;定义观测空间时,第i个无人机在t时刻的观测定义为:
3.根据权利要求2所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤s1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行任务的过程时,还包括定义无人机的目标为最大化数值回报信号gt,所述最大化数值回报信号gt定义为:
4.根据权利要求2所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤s1中使用部分可观马尔科夫决策过程描述每个无人机规避障碍并完成飞行任务的过程时,还包括将第i个无人机从初始点飞往目标点gi的无碰轨迹集合定义为:
5.根据权利要求1所述的基于深度强化学习的多无人机感知规避方法,其特征在于,所述步骤s1中基于深度强化学习框架定义动作空间以及回报函数包括:
6.根据权利要求5所述的基于深度强化学习的多无人机感知规避方法,其特征在于,与目标点相关的回报项gr具体定义为:
7.根据...
【专利技术属性】
技术研发人员:刘志宏,王祥科,王冠政,胡新雨,杨凌杰,李晓信,刘云昊,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。