一种无人机场景下基于语言引导的目标检测方法技术

技术编号：38074965 阅读：7 留言：0更新日期：2023-07-06 08:43

本发明专利技术的公开了一种无人机场景下基于语言引导的目标检测方法，包括以下步骤：S1、微调语言提示特征向量；S2、训练目标检测网络：S21、提取基本特征图，输入FPN得到多阶段上下文特征图；S22、经过特征压缩网络得到多阶段一维特征向量；S23、进行对齐

全部详细技术资料下载

【技术实现步骤摘要】
一种无人机场景下基于语言引导的目标检测方法

[0001]本专利技术属于计算机
，特别涉及一种无人机场景下基于语言引导的目标检测方法。

技术介绍

[0002]近年来，多模态机器学习十分火热，英文全称MultiModal Machine Learning(MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力，考虑到未来人机交互,联合传统计算机视觉和自然语言的一系列基本挑战逐渐受到研究者们的关注。同时，CLIP模型在图像分类领域大获成功，越来越多的基于语言
‑
视觉的算法模型涌现出来。目标检测作为计算机视觉的基本任务之一，使用语言作为引导，是大势所趋，同时，语言所具有的概括能力与抽象特征可以更好的引导目标检测模型提取到不变特征。利用语言上下文更好地调整学习指标，使目标检测模型可以提取到更高级别语义关系，并显著提高泛化性能。
[0003]近年来，无人机的广泛使用，使其逐渐进入民用市场，出现在多种复杂场景中。摄像头作为无人机最常用的传感器，基于无人机的目标检测算法也逐渐受到关注。然而无人机复杂的场景变化，给无人机目标检测带来诸多挑战。现有技术方案多数仅通过多帧画面筛选目标，以及修改深度学习网络结构来提高检测性能。但这两种方案都没有针对无人机在复杂环境下检测的根本问题。
[0004]申请号为201811424123.2的专利申请公开了一种低空复杂背景无人机目标检测方法，包括如下步骤：S1、图像滤波；S2、提取疑似目标：对滤波后的图像数据设定灰度阈值、边缘追踪阈值、尺寸阈值，采用...

【技术保护点】

【技术特征摘要】
1.一种无人机场景下基于语言引导的目标检测方法，其特征在于，包括以下步骤：S1、微调语言提示特征向量，使其加强与无人机场景的联系；具体方法为：S11、将所有拍摄条件组合填充在一个固定的语言模版中，将不同的拍摄条件转为语言描述提示，并将语言描述提示经过分词和词向量编码处理；S12、使用预训练语言
‑
视觉模型对模版进行微调；S13、将多组微调后的关于拍摄条件的语言描述向量嵌入输入CLIP的语言编码器中，获取到描述拍摄条件的语言向量组；S2、使用语言描述引导的方式训练目标检测网络；具体方法为：S21、由无人机机载摄像头获取的图像构成数据集，通过ResNet系列主干网络来提取基本特征图，然后将基本特征图输入FPN特征金字塔网络，得到多阶段上下文特征图；S22、将获取到...

【专利技术属性】
技术研发人员：叶茂，崔金钟，刘捷，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人