【技术实现步骤摘要】
一种无人机场景下基于语言引导的目标检测方法
[0001]本专利技术属于计算机
,特别涉及一种无人机场景下基于语言引导的目标检测方法。
技术介绍
[0002]近年来,多模态机器学习十分火热,英文全称MultiModal Machine Learning(MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力,考虑到未来人机交互,联合传统计算机视觉和自然语言的一系列基本挑战逐渐受到研究者们的关注。同时,CLIP模型在图像分类领域大获成功,越来越多的基于语言
‑
视觉的算法模型涌现出来。目标检测作为计算机视觉的基本任务之一,使用语言作为引导,是大势所趋,同时,语言所具有的概括能力与抽象特征可以更好的引导目标检测模型提取到不变特征。利用语言上下文更好地调整学习指标,使目标检测模型可以提取到更高级别语义关系,并显著提高泛化性能。
[0003]近年来,无人机的广泛使用,使其逐渐进入民用市场,出现在多种复杂场景中。摄像头作为无人机最常用的传感器,基于无人机的目标检测算法也逐渐受到关注。然而无人机复 ...
【技术保护点】
【技术特征摘要】
1.一种无人机场景下基于语言引导的目标检测方法,其特征在于,包括以下步骤:S1、微调语言提示特征向量,使其加强与无人机场景的联系;具体方法为:S11、将所有拍摄条件组合填充在一个固定的语言模版中,将不同的拍摄条件转为语言描述提示,并将语言描述提示经过分词和词向量编码处理;S12、使用预训练语言
‑
视觉模型对模版进行微调;S13、将多组微调后的关于拍摄条件的语言描述向量嵌入输入CLIP的语言编码器中,获取到描述拍摄条件的语言向量组;S2、使用语言描述引导的方式训练目标检测网络;具体方法为:S21、由无人机机载摄像头获取的图像构成数据集,通过ResNet系列主干网络来提取基本特征图,然后将基本特征图输入FPN特征金字塔网络,得到多阶段上下文特征图;S22、将获取到...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。