一种基于尺度注意力辅助学习方法的目标检测方法及系统技术方案

技术编号:39643271 阅读:8 留言:0更新日期:2023-12-09 11:10
本发明专利技术公开一种基于尺度注意力辅助学习方法的目标检测方法及系统,通过明确强调特征表示的尺度敏感注意力,来增强复杂交通场景中的检测准确性,引入了一个辅助尺度估计网络,利用骨干网络的多尺度特征,并通过高斯热图进行监督,采用联合优化策略,同时学习辅助网络和物体检测器,从而促进对物体尺度变化敏感的特征,增强网络训练过程中主干网络对于多尺度信息的注意力,提高了模型对于图像中尺度信息的表达能力,在后续特征融合与预测阶段,在训练完成后的推理阶段,将尺度感知网络移除,使用标准的提取特征

【技术实现步骤摘要】
一种基于尺度注意力辅助学习方法的目标检测方法及系统


[0001]本专利技术属于自动驾驶环境感知领域,具体涉及一种基于尺度注意力辅助学习方法的目标检测方法及系统


技术介绍

[0002]准确的物体检测对于确保自动驾驶和智能交通系统
(ITS)
的安全至关重要

近年来,由于其精确的深度估计能力,
LiDAR
逐渐成为交通场景中物体检测的主要力量

然而,在某些重要的视觉任务中,如交通信号灯的识别和检测,交通标志的识别和检测,以及行人的识别和检测,图像仍然是不可或缺的,因为它们提供了丰富的语义纹理信息

[0003]传统的视觉物体检测方法在很大程度上依赖于手工设计的特征,这些特征在性能方面常常存在局限性

深度学习的出现逐渐取代了这些传统方法

基于深度学习的物体检测方法使用卷积神经网络
(CNN)

Transformer
来提取特征

在智能交通领域,基于
CNN
的方法被广泛使用,由于其高实时性能和低资源消耗,而基于
Transformer
方法则不太受青睐

最先进的基于
CNN
的检测器在一般物体检测数据集的测试中取得了令人印象深刻的准确性和速度

然而,当应用于具有挑战性任务时,这些模型通常会遇到困难,例如在复杂的交通场景中检测多尺度物体
>。
在真实的交通场景中,与驾驶相关的物体通常会从远处过渡到近距离,产生无可避免的尺度变化问题

即使在静止场景中,交通参与者如汽车和行人也在持续移动

此外,不同尺度的物体可以同时存在于视野中

例如,小型圆锥形桶和大型卡车可能出现在同一个场景中

对于智能交通或驾驶系统的实际物体检测器来说,检测结果的“连续性”和“稳定性”非常重要

因此,在设计视觉检测器时,解决物体检测中的大尺度变化挑战应该是一个重要考虑因素

[0004]解决复杂交通场景中尺度变化的挑战源于现有通用检测器的结构和学习的限制

尽管使用了多尺度优化技术,但这些检测器未能有效捕捉到尺度敏感的特征表示

研究表明,将特征金字塔网络
(FPN)
融入模型可以提高其对尺度信息的敏感性,因此,现有的检测器将
FPN
集成到它们的模型中以解决检测中的多尺度问题

然而,特征金字塔所带来的性能改进主要来自于增强多层特征图,这种方法导致不同尺度级别特征之间尺度敏感性的不均匀分布,并引入了过多的冗余模型参数

此外,实时性在自动驾驶应用中非常重要

一些方法增加了可学习参数的数量以增强检测器,但没有考虑时间效率,这可能得不到最佳解决方案

辅助学习方法的成功应用为解决尺度问题提供了新的思路

这些方法不仅有可能增强鲁棒的特征表示,还能有效地保持原始框架的实时性能


技术实现思路

[0005]为了解决现有技术中存在的问题,本专利技术提供一种基于尺度注意力辅助学习方法的目标检测方法,基于辅助学习的基本思想,通过在模型训练阶段引入额外的尺度注意力网络,增强网络训练过程中主干网络对于多尺度信息的注意力,提高了模型对于图像中尺度信息的表达能力,在后续特征融合与预测阶段,在训练完成后的推理阶段,将尺度感知网
络移除,使用标准的提取特征

特征融合

检测范式完成检测任务,在提升模型检测效果的同时不增加额外的计算负担,辅助网络设计中存在多种优化途径,针对具体任务与应用场景调整辅助网络以应对复杂的交通场景

[0006]为了实现上述目的,本专利技术采用的技术方案是:一种基于尺度注意力辅助学习方法的目标检测方法,对
RGB
图像进行数据增强后,基于基线
2D
目标检测网络预测检测任务结果,输出图像上预测的所有物体的包围框以及所有物体的类别,包括以下步骤:
[0007]提取
RGB
图像的多尺度图像特征;
[0008]对所述多尺度图像特征进行融合,得到融合后的特征表示;
[0009]根据融合后的特征表示生成检测结果;
[0010]基线
2D
目标检测网络包括主干网络模块

特征金字塔模块以及检测头,主干网络用于特征提取,特征金字塔用于进行特征融合,检测头用于预测输出结果

[0011]进一步的,数据增强包括对输入的
RGB
图像裁剪

翻转以及仿射变换

[0012]进一步的,主干网络为一个基于
CNN
的特征提取器,采用
CSPDarkNet
,包括一个注意力模块和四个
Stage
层,应用一个卷积模块,内核大小为3,之后为批归一化和
Swish
激活函数,在卷积之后,设置
CSPLayer。
[0013]进一步的,特征金字塔网络包括多个不同尺度的特征图,由底层到顶层递增尺度的图像金字塔网络,每个特征图都对应原始图像的不同分辨率

[0014]进一步的,检测头包括回归分支和分类分支,回归分支从预定义的对象中心点
p
预测边界框偏移量分类分支预测预定义的对象类别,还计算用于检测结果的目标评估分数因子检测头利用编码的多尺度融合特征,检测头中的网络生成最终的检测结果,
Θ
h
表示检测头网络的可学习参数,
{F1',F2',...,F
k
'}
为不同空间分辨率上融合的特征图,如下式:
[0015][0016]进一步的,在对检测头网络训练时,使用真实边界框及其对应的对象类别标签对模型优化进行监督,表示一组损失函数用于计算分类损失,用于计算回归损失,计算预测置信度损失

[0017]进一步的,构建尺度敏感注意网络,引入基于基线
2D
目标检测网络中进行联合优化;
[0018]优化目标是像素逻辑回归,其中包含对焦损失的惩罚减少,如下式:
[0019][0020]其中,
α

β
表示焦点损失的超参数,
N
表示图像
I
Λ
中关键点的数量,通过对
N
进行归一化,确保所有正样本的焦点损失归一化为1,根据
CenterNet
中的提出的该分支训练的设定;
[0021]总损失函数表示为:
[0022][0023]其中
λ
sa...

【技术保护点】

【技术特征摘要】
1.
一种基于尺度注意力辅助学习方法的目标检测方法,其特征在于,对
RGB
图像进行数据增强后,基于基线
2D
目标检测网络预测检测任务结果,输出图像上预测的所有物体的包围框以及所有物体的类别,包括以下步骤:提取
RGB
图像的多尺度图像特征;对所述多尺度图像特征进行融合,得到融合后的特征表示;根据融合后的特征表示生成检测结果;基线
2D
目标检测网络包括主干网络模块

特征金字塔模块以及检测头,主干网络用于特征提取,特征金字塔用于进行特征融合,检测头用于预测输出结果
。2.
根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法,其特征在于,数据增强包括对输入的
RGB
图像裁剪

翻转以及仿射变换
。3.
根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法,其特征在于,主干网络为一个基于
CNN
的特征提取器,采用
CSPDarkNet
,包括一个注意力模块和四个
Stage
层,应用一个卷积模块,内核大小为3,之后为批归一化和
Swish
激活函数,在卷积之后,设置
CSPLayer。4.
根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法,其特征在于,特征金字塔网络包括多个不同尺度的特征图,由底层到顶层递减尺度的图像金字塔网络,每个特征图都对应原始图像的不同分辨率
。5.
根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法,其特征在于,检测头包括回归分支和分类分支,回归分支从预定义的对象中心点
p
预测边界框偏移量分类分支预测预定义的对象类别,还计算用于检测结果的目标评估分数因子检测头利用编码的多尺度融合特征,检测头中的网络生成最终的检测结果,
Θ
h
表示检测头网络的可学习参数,为不同空间分辨率上融合的特征图,如下式:在对检测头网络训练时,使用真实边界框及其对应的对象类别标签对模型优化进行监督,表示一组损失函数,用于计算分类损失,用于计算回归损失,计算预测置信度损失
。6.
根据权利要求1所述的基于尺度注意力辅助学习方法的目标检测方法,其特征在于,构建尺度敏感注意网络,引入基于基线
2D
目标检测网络中进...

【专利技术属性】
技术研发人员:陈仕韬张勇建张皓霖郑南宁
申请(专利权)人:宁波市舜安人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1