一种无人机场景下基于语言引导的目标检测方法技术

技术编号:38074965 阅读:7 留言:0更新日期:2023-07-06 08:43
本发明专利技术的公开了一种无人机场景下基于语言引导的目标检测方法,包括以下步骤:S1、微调语言提示特征向量;S2、训练目标检测网络:S21、提取基本特征图,输入FPN得到多阶段上下文特征图;S22、经过特征压缩网络得到多阶段一维特征向量;S23、进行对齐

【技术实现步骤摘要】
一种无人机场景下基于语言引导的目标检测方法


[0001]本专利技术属于计算机
,特别涉及一种无人机场景下基于语言引导的目标检测方法。

技术介绍

[0002]近年来,多模态机器学习十分火热,英文全称MultiModal Machine Learning(MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力,考虑到未来人机交互,联合传统计算机视觉和自然语言的一系列基本挑战逐渐受到研究者们的关注。同时,CLIP模型在图像分类领域大获成功,越来越多的基于语言

视觉的算法模型涌现出来。目标检测作为计算机视觉的基本任务之一,使用语言作为引导,是大势所趋,同时,语言所具有的概括能力与抽象特征可以更好的引导目标检测模型提取到不变特征。利用语言上下文更好地调整学习指标,使目标检测模型可以提取到更高级别语义关系,并显著提高泛化性能。
[0003]近年来,无人机的广泛使用,使其逐渐进入民用市场,出现在多种复杂场景中。摄像头作为无人机最常用的传感器,基于无人机的目标检测算法也逐渐受到关注。然而无人机复杂的场景变化,给无人机目标检测带来诸多挑战。现有技术方案多数仅通过多帧画面筛选目标,以及修改深度学习网络结构来提高检测性能。但这两种方案都没有针对无人机在复杂环境下检测的根本问题。
[0004]申请号为201811424123.2的专利申请公开了一种低空复杂背景无人机目标检测方法,包括如下步骤:S1、图像滤波;S2、提取疑似目标:对滤波后的图像数据设定灰度阈值、边缘追踪阈值、尺寸阈值,采用边缘追踪法提取图像中符合灰度、尺寸阈值要求的疑似目标;S3、剔除背景干扰:分别统计步骤S2中疑似目标的邻域亮像素数,将亮像素数超出阈值范围的疑似目标判定为地物或云背景干扰予以剔除,剩余目标则为天空中的疑似小目标;S4、时域信息相关建立目标航迹:通过判断疑似小目标运动轨迹进一步确认无人机目标。该方案针对低空下红外目标检测,未有融合低空下更丰富的可见光信息,且其在检测目标时,未对目标特征进行有效建模,仅对连续两帧视频内目标做出判断,可能存在目标误判。同时,在方案中利用模版过滤等方案,会对部分场景产生过拟合,导致方案的泛化能力差。综上所述,该方案所适用场景十分有限,无法利用机载设备的全部信息来提高检测性能。
[0005]申请号为202010659641.3的专利申请公开了一种基于多头自注意力机制的无人机变尺寸目标检测方法目标检测装置,包括:S1、建立数据集;S2、建立网络结构:根据S1获取的数据集,采用多头自注意力机制建立多头自注意力目标检测头网络,所述多头自注意力目标检测头网络的后端采用Faster Rcnn基本框架,在多头自注意力目标检测头网络的回归层再次引入自注意力机制;S3、分步骤进行网络训练,获得训练好的多头自注意力目标检测头网络;S4、对目标物体进行检测:无人机的机载摄像头采集目标物体的图像,对图像进行预处理后输入S3获取的多头自注意力目标检测头网络,多头自注意力目标检测头网络输出检测结果。该方案仅对Faster

RCNN网络的回归层添加自注意力层,未充分结合无人机场景下所采集的图像信息,没有充分利用无人机上的机载传感器,可能存在模型泛化能力
的问题。

技术实现思路

[0006]本专利技术的目的在于克服现有无人机目标检测中,受环境干扰等影响,无人机目标检测技术检测效率、检测精度未能达到实际要求的技术问题,提供一种经语言引导后的目标检测网络,可以在特征提取过程中减弱或消除因拍摄条件不同所引起的干扰,进而提高目标检测器的性能的无人机场景下基于语言引导的目标检测方法。
[0007]本专利技术的目的是通过以下技术方案来实现的:一种无人机场景下基于语言引导的目标检测方法,包括以下步骤:
[0008]S1、微调语言提示特征向量,使其加强与无人机场景的联系;具体方法为:
[0009]S11、将所有拍摄条件组合填充在一个固定的语言模版中,将不同的拍摄条件转为语言描述提示,并将语言描述提示经过分词和词向量编码处理;
[0010]S12、使用预训练语言

视觉模型对模版进行微调;
[0011]S13、将多组微调后的关于拍摄条件的语言描述向量嵌入输入CLIP的语言编码器中,获取到描述拍摄条件的语言向量组;
[0012]S2、使用语言描述引导的方式训练目标检测网络;具体方法为:
[0013]S21、由无人机机载摄像头获取的图像构成数据集,通过ResNet系列主干网络来提取基本特征图,然后将基本特征图输入FPN特征金字塔网络,得到多阶段上下文特征图;
[0014]S22、将获取到的多阶段上下文特征图经过结构相同、参数不同的特征压缩网络,获取到多阶段一维特征向量;
[0015]S23、使用预训练模型CLIP进行对齐

移除操作,将S22获得的多阶段一维特征向量与CLIP图像编码器编码的向量对齐,由此保证多阶段一维特征向量被映射到语言描述的特征空间;然后,设计损失函数约束,将一维特征向量中的有关拍摄条件的语言描述特征移除;
[0016]S24、将多阶段上下文特征图依次输入区域建议网络RPN与区域卷积神经网络RCNN中,完成目标分类及定位任务,并得到目标检测网络的损失函数;
[0017]S25、将S23和S24的损失函数求和作为总损失函数,进行反向传播算法;
[0018]S26、循环S21

S25过程,迭代更新网络中的各项权重参数,直至达到规定的迭代次数。
[0019]本专利技术的有益效果是:本专利技术通过语言引导的方式,来使目标检测网络在编码过程移除拍摄条件的干扰,目标检测网络主题由Faster

RCNN为检测算法框架。首先,第一部分,构建语言描述模版,将拍摄条件填充至语言描述模版中,然后对语言描述进行分词与嵌入操作,将语言描述转换为可学习的向量嵌入,针对有关拍摄条件的语言向量进行微调训练。训练结束后,有关拍摄条件的语言描述经过语言模型编码器获取语言特征向量组。然后,第二部分训练目标检测网络,将通过主干网络获取的多阶段特征图压缩至一维向量,该向量受损失函数的约束,在保留基本语言描述信息的同时,移除有关拍摄条件的语言特征。由此,经语言引导后的目标检测网络,可以在特征提取过程中减弱或消除因拍摄条件不同所引起的干扰,进而提高目标检测器的性能。
附图说明
[0020]图1为本目标检测方法总体流程图。
[0021]图2为拍摄条件语言向量组生成方法。
[0022]图3为FSN网络结构。
具体实施方式
[0023]当无人机运行至高空时,由机载摄像头拍摄成像,其获得的成像受多种拍摄条件的影响,包括天气、海拔、拍摄角度等因素。多种拍摄条件下的成像有很多区别,例如在白天高海拔摄像头正视的情况下拍摄的图像与夜晚低海拔摄像头俯视情况下拍摄的图像。尽管图像中包含的目标或内容没有较大改变,但因为不同的拍摄条件,图像中的目标产生了较大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无人机场景下基于语言引导的目标检测方法,其特征在于,包括以下步骤:S1、微调语言提示特征向量,使其加强与无人机场景的联系;具体方法为:S11、将所有拍摄条件组合填充在一个固定的语言模版中,将不同的拍摄条件转为语言描述提示,并将语言描述提示经过分词和词向量编码处理;S12、使用预训练语言

视觉模型对模版进行微调;S13、将多组微调后的关于拍摄条件的语言描述向量嵌入输入CLIP的语言编码器中,获取到描述拍摄条件的语言向量组;S2、使用语言描述引导的方式训练目标检测网络;具体方法为:S21、由无人机机载摄像头获取的图像构成数据集,通过ResNet系列主干网络来提取基本特征图,然后将基本特征图输入FPN特征金字塔网络,得到多阶段上下文特征图;S22、将获取到...

【专利技术属性】
技术研发人员:叶茂崔金钟刘捷
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1