System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于改进DAB-DETR的目标检测方法及系统技术方案_技高网

一种基于改进DAB-DETR的目标检测方法及系统技术方案

技术编号:40981727 阅读:3 留言:0更新日期:2024-04-18 21:27
本发明专利技术公开了一种基于改进DAB‑DETR的目标检测方法及系统,基于DAB‑DETR结构改进而来,在不改变原有结构的基础上,开发了两种训练设计,有效解决了查询之间的冗余预测以及分类置信度和定位精度之间的不对齐问题。具体而言,我们提出了一种查询感知的区域约束,通过限制每个查询的责任区域,避免了查询之间不必要的内部冲突。然后,我们引入了一种位置调制的分类损失,通过加强分类置信度与定位精度之间的相关性,鼓励模型产生分类置信度对齐定位精度的预测。提出的两种设计极大提高了DAB‑DETR的收敛速度和检测精度,并且没有增加模型的参数量和计算成本,可以很容易集成到现有基于DETR的模型,带来进一步的提升。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,具体而言,涉及一种基于改进dab-detr的目标检测方法及系统。


技术介绍

1、目标检测是指确定目标在给定图像中的位置(目标定位)以及每个目标所属的类别(目标分类)。但是,由于同一类物体的不同实例间可能存在很大的差异性,而不同类别物体间可能非常相似,以及不同的成像条件和环境因素等会对物体的外观产生巨大的影响,使得目标检测具有很大的挑战性。

2、在过去的十年里,基于卷积神经网络的各种检测器,例如faster r-cnn、yolov3、fcos和yolox等,依赖于预先在特征网格上平铺的密集先验进行检测,在检测精度和速度方面取得了显著进展。然而,这些检测器存在一些缺点,比如复杂的结构和手工设计的组件等,这些因素阻碍了模型设计的简洁性和端到端的优化。最近,carion等人提出了一种使用transformer进行目标检测的范式detection transformer(detr),它将目标检测看作一个集合预测问题,使用一组可学习的查询探寻图像中的潜在目标,并通过匈牙利匹配强制唯一的预测。detr极大简化了检测算法的设计流程,并有效移除了非极大值抑制和锚框生成步骤,实现了端到端的检测。尽管detr取得了令人惊异的结果,但该模型仍然存在收敛速度较慢和检测性能较低的限制。后续进一步的改进dab-detr将位置查询建模成锚框形式,并在transformer解码器中逐层调整锚框,同时采用宽高调制的交叉注意力替代原有的交叉注意力,提高了收敛速度和检测精度,但仍然存在一定的局限性。

3、深入研究发现导致这两个限制的因素还包括两方面。一方面是使用查询作为输入的transformer注意力模块没有很好地关注包含目标边界或目标框内部的空间范围,导致每个查询的预测框偏离了相应的空间范围。当目标附近的查询数量不足时,需要借助更多远离目标的查询来定位目标的边界,这会导致同一目标物体由多个查询重复预测。另一方面是预测的分类置信度和定位精度的相关性较弱,模型可能会产生具有较高定位精度和较高分类置信度的预测。然而,具有最高定位精度或最高分类置信度的预测可能被视为负样本,这很容易导致训练过程中的优化目标不一致。因此,有必要设计一种改进dab-detr的目标检测方法及系统,加快收敛速度并提高检测精度。


技术实现思路

1、针对上述技术的不足,本专利技术的目的在于提供一种改进dab-detr的目标检测方法及系统,用以解决现有技术中查询之间的冗余预测问题,以及分类置信度和定位精度之间的不对齐问题。该方法使用基本的dab-detr网络结构,采用了一种查询感知的区域约束缩小查询的管理范围,解决了查询之间的冗余预测问题,避免了不必要的内部冲突。此外,设计了一种位置调制的分类损失,利用定位精度监督分类置信度,鼓励模型产生分类置信度对齐定位精度的预测,解决了分类置信度和定位精度之间的不对齐问题。提出的两种设计只在训练阶段中使用,在推理阶段可以舍弃,没有增加模型的参数量和计算成本就能得到好的检测效果。

2、为了实现上述目的,本专利技术提供了一种采用查询感知的区域约束和位置调制的分类损失改进dab-detr的目标检测方法,包括以下步骤:

3、s1、构建基本的dab-detr网络结构;

4、s2、在查询对应的锚框和预测框之间采用查询感知的区域约束限制每个查询的责任区域;

5、s3、采用位置调制的分类损失作为改进后的dab-detr的分类损失函数;

6、s4、利用ms coco训练集对改进后的dab-detr模型进行训练,将训练好的权重文件导入dab-detr模型并在验证集上验证。

7、本专利技术还提供了一种端到端训练的dab-detr目标检测系统,包括:(1)预处理模块,用于对数据集中的图像进行预处理,便于后续统一训练和检测;(2)参数配置模块,根据实际使用的硬件设备、预期要达到的检测效果与推理fps,配置合适的模型参数,包括批次大小、优化器、学习率、训练轮数、调整学习率的训练轮数、特征提取网络等;(3)模型训练模块,在真实目标和预测之间通过最小化全局匹配成本来进行一对一标签分配,进而最小化总损失,包含位置调制的分类损失、修改后的回归损失和查询感知的区域约束损失三部分;(4)目标检测模块,利用训练好的权重文件和改进的dab-detr模型对ms coco验证集进行检测得到检测结果,比较检测效果与推理fps是否达到预期。

8、本专利技术与现有技术相比,具备以下有益效果:(1)本专利技术采用了位置约束和宽高比相似性约束,通过限制每个查询的责任区域,避免了查询之间不必要的内部冲突,提高了模型对不同尺度、宽高比的目标物体的鲁棒性。(2)本专利技术针对分类置信度和定位精度之间的不对齐问题,通过使用与定位精度相关的分类标签制约模型对分类的学习,鼓励模型产生分类置信度对齐定位精度的预测,并且使用此标签对正样本进行加权,使得模型能够关注高质量正样本的学习。(3)本专利技术提出的两种设计在推理阶段可以舍弃,没有引入额外的参数量和计算成本就可以得到好的检测效果。此外,可以很容易集成到现有基于detr的模型,带来进一步的提升。

本文档来自技高网...

【技术保护点】

1.一种基于改进DAB-DETR的目标检测方法,其特征在于,所述方法由计算机执行,包括以下步骤:

2.根据权利要求1所述的一种基于改进DAB-DETR的目标检测方法,其特征在于步骤S1中,构建DAB-DETR检测网络结构;该检测网络包括:特征提取网络Backbone、Transformer编码器和解码器、分类预测头和回归预测头;给定一幅输入图像,DAB-DETR首先使用CNNbackbone抽取深度特征;其次,CNN特征进行空间位置编码并经过Transformer编码器得到编码器特征;然后,将编码器特征和查询送入Transformer解码器,探寻图像中潜在的目标物体,并对解码器输出进行微调;最后,对于每个Transformer解码器层的输出,使用分类预测头和回归预测头得到预测集合。

3.根据权利要求1所述的一种基于改进DAB-DETR的目标检测方法,其特征在于,步骤S2的具体实现过程如下:

4.根据权利要求1所述的一种基于改进DAB-DETR的目标检测方法,其特征在于,步骤S3的具体实现过程如下:

5.根据权利要求1所述的一种基于改进DAB-DETR的目标检测方法,其特征在于,步骤S4的具体实现过程如下:

6.一种基于改进DAB-DETR的目标检测系统,其特征在于,包含以下几个模块:

...

【技术特征摘要】

1.一种基于改进dab-detr的目标检测方法,其特征在于,所述方法由计算机执行,包括以下步骤:

2.根据权利要求1所述的一种基于改进dab-detr的目标检测方法,其特征在于步骤s1中,构建dab-detr检测网络结构;该检测网络包括:特征提取网络backbone、transformer编码器和解码器、分类预测头和回归预测头;给定一幅输入图像,dab-detr首先使用cnnbackbone抽取深度特征;其次,cnn特征进行空间位置编码并经过transformer编码器得到编码器特征;然后,将编码器特征和查询送入transformer解码器,探寻图像中潜在的目标...

【专利技术属性】
技术研发人员:张创桂彦
申请(专利权)人:长沙理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1