一种无人机场景下基于多模态的开放词集目标检测方法技术

技术编号:41351604 阅读:20 留言:0更新日期:2024-05-20 10:04
本发明专利技术提出一种无人机场景下基于多模态的开放词集目标检测方法,包括:从无人机设备获取待检测图像,利用特征提取主干网络生成图像的全局特征图,利用区域提议网络在特征图上生成位置先验框,将对象性分数较高的预测框标注为待识别目标;利用DETR目标检测模型结合位置先验信息和特征图对待识别目标进行定位和初步分类;对于分类置信度高于设定阈值的对象直接输出调整后的锚框与预测类别,否则利用CLIP多模态模型进行二次分类;通过设计包含拍摄条件的语言提示,减弱拍摄角度和多变天气情况等环境条件引起的干扰,提高多模态模型分类准确度。

【技术实现步骤摘要】

本申请属于目标检测识别和智能监控领域,尤其涉及一种无人机场景下基于多模态的开放词集目标检测方法


技术介绍

1、随着深度学习领域的飞速发展,目标检测任务作为计算机视觉的一个重要研究方向也不断取得突破,目标检测是指识别和定位指定图像中的目标,传统的目标检测方法都是检测已知具体类别,训练阶段仅使用封闭词集中指定类的标注数据,因此只能对已知类别进行检测,属于闭集检测任务。相对的,如果需要在检测中识别未知类别的对象,则定义为开放词集检测任务ovd,此项任务带来了诸多挑战,引起了众多研究者的关注。

2、近年来无人机的应用领域也逐渐拓展,各种场合都能见到无人机的身影,例如智能监控领域,无人机强大的灵活性使得它能适应各项任务。无人机相关检测任务一般有实时性的要求,常用多阶段目标检测模型,由于其分阶段输出预测的特点,存在检测速度慢的问题,而基于transformer的目标检测模型很好地利用了注意力机制,能快速且并行地输出检测结果集,适配实时检测相关任务。

3、此外无人机工作场景通常恶劣复杂,存在拍摄清晰度低、视角差,环境繁杂的问题,这些问题都会干扰本文档来自技高网...

【技术保护点】

1.一种无人机场景下基于多模态的开放词集目标检测方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的一种无人机场景下基于多模态的开放词集目标检测方法,其特征在于,所述S1的具体方法如下:

3.根据权利要求2所述的一种无人机场景下基于多模态的开放词集目标检测方法,其特征在于,所述S2中具体为:

4.根据权利要求3所述的一种无人机场景下基于多模态的开放词集目标检测方法,其特征在于,所述S3的方法如下:

5.根据权利要求4所述的一种无人机场景下基于多模态的开放词集目标检测方法,其特征在于,所述S4的具体方法如下:

【技术特征摘要】

1.一种无人机场景下基于多模态的开放词集目标检测方法,其特征在于,该方法包括如下步骤:

2.根据权利要求1所述的一种无人机场景下基于多模态的开放词集目标检测方法,其特征在于,所述s1的具体方法如下:

3.根据权利要求2所述的一种无人机场景下基于多模态的开放词集目...

【专利技术属性】
技术研发人员:张伟蔡文玮陈云芳
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1