一种基于transformer的细长类物体目标检测方法技术

技术编号:36170558 阅读:19 留言:0更新日期:2022-12-31 20:21
本发明专利技术提出了一种基于transformer的细长类物体目标检测方法,涉及目标检测技术领域,通过基于细长类物体的特征,获取细长类物体的数据集,并对提取的数据集进行数据增强操作;构建细长类物体的网络检测架构,网络架构主要包括改进resnet特征提取模块及transformer网络检测模块;在目标检测网络上使用训练集进行模型的训练,并在验证集上进行验证,选出最优的检测模型;基于步骤3中选出的最优检测模型进行测试,对测试集中的图片进行预测,得到最终的检测效果;在改进的resnet特征提取模块之后加入了CBAM注意力机制,更准确的集中于细长物体的特征,增强了特征表达,从而提高了特征提取的能力。提取的能力。提取的能力。

【技术实现步骤摘要】
一种基于transformer的细长类物体目标检测方法


[0001]本专利技术涉及目标检测
,具体涉及一种基于transformer的细长类物体目标检测方法。

技术介绍

[0002]随着计算机技术的发展,计算能力的提高和计算机视觉原理的广泛应用,利用计算机图像处理技术实现人类视觉任务成为研究的焦点,目标检测作为计算机视觉中的一项基本任务,近年来取得了实质性的进展,受到了社会各界的广泛关注;目标检测即对图像中目标识别,找出图像中目标物体,包含物体分类和物体定位两个子任务,确定物体的类别和位置;
[0003]随着目标检测在现实世界的应用,需求在各种各样的场景中出现,关于特定主题研究的重要性提高了;改进物体检测的特定方面,如检测密集物体和小物体,提高了物体检测的实用价值,并因此激发了进一步的研究;虽然大部分问题已经得到了很好的研究,并且提出了许多新的想法,但是在细长类物体检测仍然存在巨大的挑战;
[0004]目前,针对细长类物体的检测往往被我们所忽视,在现实场景以及广泛使用的数据集(如COCO)中,细长类物体实际上非常常见;然而,这种类型的目标在很大程度上被以前的目标检测算法所忽略;根据本专利技术研究,对于经典的目标检测方法,比如Faster RCNN、RepPoints、FCOS等算法,如果仅在细长类物体上评估,像滑雪板、雪橇、冲浪板、电线杆、棒球棒、刀、叉等细长类物体,观察到COCO数据集中的细长类物体检测精度mAP急剧下降;究其原因:在对细长类物体卷积过程中受背景影响较大,导致目标检测的不充分性;同时,细长类物体的形状用普通卷积提取特征并不能很好的适应其形状,特征提取存在偏差,对细长类物体的检测相当不利,检测效果相对来说比较差。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术提供了一种基于transformer的细长类物体目标检测方法,并融合了可变形卷积和CBAM注意力机制,旨在提高细长类物体的检测精度;
[0006]本专利技术提供以下的技术方案:
[0007]一种基于transformer的细长类物体目标检测方法,包括如下步骤:
[0008]步骤1:基于细长类物体的特征,获取细长类物体的数据集,并对提取的数据集进行数据增强操作;
[0009]步骤2:构建细长类物体的网络检测架构,网络架构主要包括改进ResNet特征提取模块及transformer网络检测模块;
[0010]步骤3:在目标检测网络上使用训练集进行模型的训练,并在验证集上进行验证,选出最优的检测模型;
[0011]步骤4:基于步骤3中选出的最优检测模型进行测试,对测试集中的图片进行预测,得到最终的检测效果;
[0012]所述步骤1的具体过程:数据集分为训练集、验证集及测试集;
[0013]所述步骤2中改进ResNet的特征提取模块:建立骨干网络,以ResNet为基础网络,将ResNet残差块中3
×
3卷积换成3
×
3可变形卷积,并生成特征图;
[0014]加入CBAM注意力机制模块,将改进的ResNet生成的最后一层特征图输入到CBAM注意力机制模块,使其产生CBAM特征图;
[0015]将改进ResNet的特征提取模块生成的第三层、第四层和第五层特征图以及CBAM特征图做进一步的卷积处理得到多尺度特征图;
[0016]所述步骤2中transformer的网络检测模块,分别建立transformer编码器、transformer解码器以及FFN前馈神经网络;
[0017]将经过卷积处理后的多尺度特征图加上对应像素的位置编码,并将位置编码后的多尺度特征图输入到transformer编码器中,将transformer编码器的结果以及queries传入到transformer解码器中进行解码操作;
[0018]所述FFN前馈神经网络是由一个带有ReLU激活函数和隐藏维数d的3层感知器以及一个线性投影层计算的;
[0019]将上述解码后的结果输入到FFN前馈神经网络输出分类以及定位结果;
[0020]所述步骤3中的具体过程,改进ResNet的特征提取模块使用在ImageNet数据集训练好的ResNet模型,作为骨干的预训练模型,可变形卷积、CBAM注意力机制模块、transformer检测网络模块均采用随机初始化的方式从零开始训练,并通过随机裁剪对数据进行数据增强操作,通过学习率、批量大小、优化方法调整超参数来训练网络;在训练过程中使用匈牙利排序算法将GT和模型预测结果一一对应,使用匈牙利算法(二部图匹配方法)找到能够最小化匹配损失的最优排列方法,得到最优匹配结果;
[0021]根据最优匹配结果计算损失函数,整体的损失包含两个部分:一个是分类损失,第二个是回归损失,分类损失采用交叉熵损失,而回归损失是GIOU损失和L1损失的加权和;
[0022]根据计算的损失结果反向传播去调整网络的权重参数;
[0023]所述步骤4中具体过程:训练过程中,每经过1轮存储一次模型,并将该模型在验证集上验证,根据验证集中细长类物体检测的最高精度mAP值选择最优的模型,用最优的模型检测细长类物体,得到最终的检测结果。
[0024]有益技术效果
[0025]1、本专利技术采用了transformer检测技术,使其集中在用户所关注的地方,摆脱了由于细长类物体的独特形状以及尺寸、角度等方面的影响导致普通卷积处理时受图片背景影响较大,卷积出来的物体并不能适应细长类物体形状的缺点;基于transformer的自注意力机制具有良好的全局信息感知性能,根据Attention对象的重要程度,重新分配资源,即权重,突出细长类物体的重要特征,使其注意力集中于所要检测的细长类物体上,从而提升了细长类物体的检测精度;
[0026]2、本专利技术在改进的ResNet特征提取模块之后加入了CBAM注意力机制,更准确的集中于细长类物体的特征,增强了特征表达,从而提高了特征提取的能力;
[0027]3、本专利技术在ResNet特征提取模块中将卷积替换成可变形卷积,可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整,从而,适应细长类物体的形状,更准确地提取所需要的特征。
附图说明
[0028]图1为本专利技术实施例提供的一种基于transformer的细长类物体目标检测方法的流程图;
[0029]图2为本专利技术实施例提供的一种基于transformer的细长类物体目标检测方法的整体网络结构图;
[0030]图3为本专利技术实施例提供的一种基于transformer的细长类物体目标检测方法的可变形卷积结构图;
[0031]图4为本专利技术实施例提供的一种基于transformer的细长类物体目标检测方法的CBAM网络结构图;
[0032]图5为本专利技术实施例提供的一种基于transformer的细长类物体目标检测方法的CAM网络结构图;
[0033]图6为本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于transformer的细长类物体目标检测方法,其特征在于,包括如下步骤:步骤1:基于细长类物体的特征,获取细长类物体的数据集,并对提取的数据集进行数据增强操作;步骤2:构建细长类物体的网络检测架构,网络架构主要包括改进ResNet特征提取模块及transformer网络检测模块;步骤3:在目标检测网络上使用训练集进行模型的训练,并在验证集上进行验证,选出最优的检测模型;步骤4:基于步骤3中选出的最优检测模型进行测试,对测试集中的图片进行预测,得到最终的检测效果。2.如权利要求1所述的一种基于transformer的细长类物体目标检测方法,其特征在于,所述步骤1的数据集:数据集分为训练集、验证集及测试集。3.如权利要求1所述的一种基于transformer的细长类物体目标检测方法,其特征在于,所述步骤2中改进ResNet的特征提取模块:建立骨干网络,以ResNet为基础网络,将ResNet残差块中3
×
3卷积换成3
×
3可变形卷积,并生成特征图;加入CBAM注意力机制模块,将改进的ResNet生成的最后一层特征图输入到CBAM注意力机制模块,使其产生CBAM特征图;将改进ResNet的特征提取模块生成的第三层、第四层和第五层特征图以及CBAM特征图做进一步的卷积处理得到多尺度特征图。4.如权利要求1所述的一种基于transformer的细长类物体目标检测方法,其特征在于,所述步骤2中transformer的网络检测模块,分别建立transformer编码器、transformer解码器以及FFN前馈神经网络;将经过卷积处理后的多尺度特征图加上对...

【专利技术属性】
技术研发人员:文峰王梅殷向阳
申请(专利权)人:沈阳理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1