一种基于改进DAB-DETR的目标检测方法及系统技术方案

技术编号：40981727 阅读：3 留言：0更新日期：2024-04-18 21:27

本发明专利技术公开了一种基于改进DAB‑DETR的目标检测方法及系统，基于DAB‑DETR结构改进而来，在不改变原有结构的基础上，开发了两种训练设计，有效解决了查询之间的冗余预测以及分类置信度和定位精度之间的不对齐问题。具体而言，我们提出了一种查询感知的区域约束，通过限制每个查询的责任区域，避免了查询之间不必要的内部冲突。然后，我们引入了一种位置调制的分类损失，通过加强分类置信度与定位精度之间的相关性，鼓励模型产生分类置信度对齐定位精度的预测。提出的两种设计极大提高了DAB‑DETR的收敛速度和检测精度，并且没有增加模型的参数量和计算成本，可以很容易集成到现有基于DETR的模型，带来进一步的提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，具体而言，涉及一种基于改进dab-detr的目标检测方法及系统。

技术介绍

1、目标检测是指确定目标在给定图像中的位置(目标定位)以及每个目标所属的类别(目标分类)。但是，由于同一类物体的不同实例间可能存在很大的差异性，而不同类别物体间可能非常相似，以及不同的成像条件和环境因素等会对物体的外观产生巨大的影响，使得目标检测具有很大的挑战性。

2、在过去的十年里，基于卷积神经网络的各种检测器，例如faster r-cnn、yolov3、fcos和yolox等，依赖于预先在特征网格上平铺的密集先验进行检测，在检测精度和速度方面取得了显著进展。然而，这些检测器存在一些缺点，比如复杂的结构和手工设计的组件等，这些因素阻碍了模型设计的简洁性和端到端的优化。最近，carion等人提出了一种使用transformer进行目标检测的范式detection transformer(detr)，它将目标检测看作一个集合预测问题，使用一组可学习的查询探寻图像中的潜在目标，并通过匈牙利匹配强制唯一的预测。detr极大简化了检测算法的设计流程，并有效移除了非极大值抑制和锚框生成步骤，实现了端到端的检测。尽管detr取得了令人惊异的结果，但该模型仍然存在收敛速度较慢和检测性能较低的限制。后续进一步的改进dab-detr将位置查询建模成锚框形式，并在transformer解码器中逐层调整锚框，同时采用宽高调制的交叉注意力替代原有的交叉注意力，提高了收敛速度和检测精度，但仍然存在一定的局限性。

3、深入研究发现导

技术实现思路

1、针对上述技术的不足，本专利技术的目的在于提供一种改进dab-detr的目标检测方法及系统，用以解决现有技术中查询之间的冗余预测问题，以及分类置信度和定位精度之间的不对齐问题。该方法使用基本的dab-detr网络结构，采用了一种查询感知的区域约束缩小查询的管理范围，解决了查询之间的冗余预测问题，避免了不必要的内部冲突。此外，设计了一种位置调制的分类损失，利用定位精度监督分类置信度，鼓励模型产生分类置信度对齐定位精度的预测，解决了分类置信度和定位精度之间的不对齐问题。提出的两种设计只在训练阶段中使用，在推理阶段可以舍弃，没有增加模型的参数量和计算成本就能得到好的检测效果。

2、为了实现上述目的，本专利技术提供了一种采用查询感知的区域约束和位置调制的分类损失改进dab-detr的目标检测方法，包括以下步骤：

3、s1、构建基本的dab-detr网络结构；

4、s2、在查询对应的锚框和预测框之间采用查询感知的区域约束限制每个查询的责任区域；

5、s3、采用位置调制的分类损失作为改进后的dab-detr的分类损失函数；

6、s4、利用ms coco训练集对改进后的dab-detr模型进行训练，将训练好的权重文件导入dab-detr模型并在验证集上验证。

7、本专利技术还提供了一种端到端训练的dab-detr目标检测系统，包括：(1)预处理模块，用于对数据集中的图像进行预处理，便于后续统一训练和检测；(2)参数配置模块，根据实际使用的硬件设备、预期要达到的检测效果与推理fps，配置合适的模型参数，包括批次大小、优化器、学习率、训练轮数、调整学习率的训练轮数、特征提取网络等；(3)模型训练模块，在真实目标和预测之间通过最小化全局匹配成本来进行一对一标签分配，进而最小化总损失，包含位置调制的分类损失、修改后的回归损失和查询感知的区域约束损失三部分；(4)目标检测模块，利用训练好的权重文件和改进的dab-detr模型对ms coco验证集进行检测得到检测结果，比较检测效果与推理fps是否达到预期。

8、本专利技术与现有技术相比，具备以下有益效果：(1)本专利技术采用了位置约束和宽高比相似性约束，通过限制每个查询的责任区域，避免了查询之间不必要的内部冲突，提高了模型对不同尺度、宽高比的目标物体的鲁棒性。(2)本专利技术针对分类置信度和定位精度之间的不对齐问题，通过使用与定位精度相关的分类标签制约模型对分类的学习，鼓励模型产生分类置信度对齐定位精度的预测，并且使用此标签对正样本进行加权，使得模型能够关注高质量正样本的学习。(3)本专利技术提出的两种设计在推理阶段可以舍弃，没有引入额外的参数量和计算成本就可以得到好的检测效果。此外，可以很容易集成到现有基于detr的模型，带来进一步的提升。

本文档来自技高网...

【技术保护点】

1.一种基于改进DAB-DETR的目标检测方法，其特征在于，所述方法由计算机执行，包括以下步骤：

2.根据权利要求1所述的一种基于改进DAB-DETR的目标检测方法，其特征在于步骤S1中，构建DAB-DETR检测网络结构；该检测网络包括：特征提取网络Backbone、Transformer编码器和解码器、分类预测头和回归预测头；给定一幅输入图像，DAB-DETR首先使用CNNbackbone抽取深度特征；其次，CNN特征进行空间位置编码并经过Transformer编码器得到编码器特征；然后，将编码器特征和查询送入Transformer解码器，探寻图像中潜在的目标物体，并对解码器输出进行微调；最后，对于每个Transformer解码器层的输出，使用分类预测头和回归预测头得到预测集合。

3.根据权利要求1所述的一种基于改进DAB-DETR的目标检测方法，其特征在于，步骤S2的具体实现过程如下：

4.根据权利要求1所述的一种基于改进DAB-DETR的目标检测方法，其特征在于，步骤S3的具体实现过程如下：

5.根据权利要求1所述的一种基于改

6.一种基于改进DAB-DETR的目标检测系统，其特征在于，包含以下几个模块：

...

【技术特征摘要】

1.一种基于改进dab-detr的目标检测方法，其特征在于，所述方法由计算机执行，包括以下步骤：

2.根据权利要求1所述的一种基于改进dab-detr的目标检测方法，其特征在于步骤s1中，构建dab-detr检测网络结构；该检测网络包括：特征提取网络backbone、transformer编码器和解码器、分类预测头和回归预测头；给定一幅输入图像，dab-detr首先使用cnnbackbone抽取深度特征；其次，cnn特征进行空间位置编码并经过transformer编码器得到编码器特征；然后，将编码器特征和查询送入transformer解码器，探寻图像中潜在的目标...

【专利技术属性】
技术研发人员：张创，桂彦，
申请(专利权)人：长沙理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人