一种基于Transformer和融合注意力机制的目标检测方法及系统技术方案

技术编号:37141779 阅读:15 留言:0更新日期:2023-04-06 21:47
本发明专利技术提出了一种基于Transformer和融合注意力机制的目标检测方法,包括:获取待检测图像进行预处理;将预处理后的待检测图像输入至训练好的目标检测模型中,输出检测结果;其中,所述目标检测模型包括Swin Transformer模块、注意力融合模块和检测模块,所述Swin Transformer模块用于提取待检测图像的全局特征,所述注意力融合模块用于局部特征提取,并将全局特征和局部特征采用跨层级联的方式进行融合,所述检测模块用于根据融合后的特征输出检测结果。融合局部感受野与Transformer的全局信息,以进一步提升局部特征与全局信息融合的能力,增强低信噪比目标的检测效果。增强低信噪比目标的检测效果。增强低信噪比目标的检测效果。

【技术实现步骤摘要】
一种基于Transformer和融合注意力机制的目标检测方法及系统


[0001]本专利技术属于深度学习计算机视觉相关
,尤其涉及一种基于Transformer和融合注意力机制的目标检测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着近两年深度学习技术的发展,越来越精良的模型结构应运而生,2020年以前,图像视觉领域大多采用卷积神经网络(CNN)用于图像特征提取,卷积神经网络采用分层方式进行特征表示,相较于自然语言处理(NLP)采用序列进行特征表示,CNN需要逐层积累,由浅入深提取更高级的语义信息特征。即便如此CNN所获取的实际感受野仍远小于理论感受野,不利于特征信息的捕获,反而带来了计算量的剧增。为此不少学者开始尝试将NLP领域应用的Transformer应用于计算机视觉(CV)领域。2020年Google提出ViT模型验证了Transformer模型在图像分类领域的有效性。由此,基于Transformer的CV时代得以展开。Swin Transformer模型提出于CVPR2021,该模型通过shifted windows来计算,针对视觉实体的尺度变换以及图像高分辨问题,借助Shifted Windows Multi

Head Self

Attention(SW

MSA)概念,实现信息在相邻窗口间的传递,加强上下文联系,Swin Transformer在性能上展现了较好的优势,但其更倾向于获取图像的全局特征,对于局部信息的提取能力不强,而目标检测任务中存在较多低信噪比的目标特征,为此存在局部边缘纹理等特征信息提取能力弱的情况。

技术实现思路

[0004]为克服上述现有技术的不足,本专利技术提供了一种基于Transformer和融合注意力机制的目标检测方法及系统,采用Swin Transformer技术作为骨干网络应用于目标检测任务中。同时提出AGFF方法融合局部感受野与Transformer的全局信息,以进一步提升局部特征与全局信息融合的能力,增强低信噪比目标的检测效果。同时采用YOLOX检测器完成检测任务。
[0005]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:一种基于Transformer和融合注意力机制的目标检测方法,包括:
[0006]获取待检测图像进行预处理;
[0007]将预处理后的待检测图像输入至训练好的目标检测模型中,输出检测结果;
[0008]其中,所述目标检测模型包括Swin Transformer模块、注意力融合模块和检测模块,所述Swin Transformer模块用于提取待检测图像的全局特征,所述注意力融合模块用于局部特征提取,并将全局特征和局部特征采用跨层级联的方式进行融合,所述检测模块用于根据融合后的特征输出检测结果。
[0009]本专利技术的第二个方面提供一种基于Transformer和融合注意力机制的目标检测系统,包括:
[0010]图像获取模块:获取待检测图像进行预处理;
[0011]目标检测模块:将预处理后的待检测图像输入至训练好的目标检测模型中,输出检测结果;
[0012]其中,所述目标检测模型包括Swin Transformer模块、注意力融合模块和检测模块,所述Swin Transformer模块用于提取待检测图像的全局特征,所述注意力融合模块用于局部特征提取,并将全局特征和局部特征采用跨层级联的方式进行融合,所述检测模块用于根据融合后的特征输出检测结果。
[0013]本专利技术的第三个方面提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。
[0014]本专利技术的第四个方面提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
[0015]以上一个或多个技术方案存在以下有益效果:
[0016]在本专利技术中,将Transformer模型应用于目标检测任务中,融合卷积神经网络,提高模型捕获特征能力。首先Swin Transformer可借助Shifted Windows实现相邻窗口信息交互和传递,弥补ViT中只在窗口内进行特征交互的缺陷。同时在检测层分支处,引入三个1
×
1卷积层,实现维度变换的同时获取局部边缘纹理特征信息,以提升模型的特征提取能力。
[0017]在本专利技术中,提出了一种注意力全局特征融合方法(AGFF),该方法是将局部感受野信息与全局信息做融合,该方式采用跨层级联的方式,融合语义和尺度不一致的特征,将不同层的语义信息融合的同时,获取到由Transformer处得到的全局信息,在此基础上,将局部感受野信息与全局信息作进一步融合处理以实现特征融合。
[0018]在本专利技术中,采用YOLOX检测器,该检测器采用Anchor

Free机制,具有更高的灵活性和适应性。同时采用分支解耦头部,极大的改善了收敛速度。引入SimOTA方法,自动分析每个ground truth(GT)所需样本数,自适配GT对应特征图以完成检测任务。
[0019]本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0020]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0021]图1为本专利技术实施例一中Mosaic操作的数据预处理的示意图;
[0022]图2为本专利技术实施例一中MixUP操作的数据预处理的示意图;
[0023]图3为本专利技术实施例一中目标检测模型的整体结构示意图;
[0024]图4为本专利技术实施例一中Swin Transformer block结构图;
[0025]图5为本专利技术实施例一中AGFF的结构图;
[0026]图6为本专利技术实施例一中模型预测效果图。
具体实施方式
[0027]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0028]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。
[0029]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0030]实施例一
[0031]如图3所示,本实施例公开了一种基于Transformer和融合注意力机制的目标检测方法,包括:
[0032]获取待检测图像进行预处理;
[0033]将预处理后的待检测图像输入至训练好的目标检测模型中,输出检测结果;
[0034本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer和融合注意力机制的目标检测方法,其特征在于,包括:获取待检测图像进行预处理;将预处理后的待检测图像输入至训练好的目标检测模型中,输出检测结果;其中,所述目标检测模型包括Swin Transformer模块、、注意力融合模块和检测模块,所述Swin Transformer模块用于提取待检测图像的全局特征,所述注意力融合模块用于局部特征提取,并将全局特征和局部特征采用跨层级联的方式进行融合,所述检测模块用于根据融合后的特征输出检测结果。2.如权利要求1所述的一种基于Transformer和融合注意力机制的目标检测方法,其特征在于,所述Swin Transformer模块包括依次顺序连接的4个layer层,其中,layer1层包括依次连接的linear embedding层和2个Swin Transformer Block层;layer2层包括依次连接的Patch Merging层和2个Swin Transformer Block层;layer3层包括依次连接的Patch Merging层和6个Swin Transformer Block层;layer4层包括依次连接的Patch Merging层和2个Swin Transformer Block层。3.如权利要求1所述的一种基于Transformer和融合注意力机制的目标检测方法,其特征在于,所述Swin Transformer Block层包括W

MSA结构以及SW

MSA结构,所述W

MSA结构对特征图进行分割,分割为多个窗口;所述SW

MSA结构对分割的多个窗口进行像素偏移,使多个窗口实现信息交流。4.如权利要求2所述的一种基于Transformer和融合注意力机制的目标检测方法,其特征在于,1
×
1的卷积层分别对layer1层的输出特征图、layer2层的输出特征图以及layer4层的输出特征图进行维度变换分别得到第一特征图、第二特征图、第三特征图。5.如权利要求4所述的一种基于Transformer和融合注意力机制的目标检测方法,其特征在于,分别将layer1层的linear embedding层的输出特征图与第一特征图、layer4层的Patch Merging层的输出特征图和layer4层的输出的第三特征图作为所述注意力融合模块的输入进行特征融合后输出第四特征图和第五特征图。6.如权利要求5所述的一种基于Transformer和融合注意力机制的目...

【专利技术属性】
技术研发人员:赵志刚张兆虔耿丽婷霍吉东李传涛王春晓张俭李响
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1