一种基于Transformer和融合注意力机制的目标检测方法及系统技术方案

技术编号：37141779 阅读：15 留言：0更新日期：2023-04-06 21:47

本发明专利技术提出了一种基于Transformer和融合注意力机制的目标检测方法，包括：获取待检测图像进行预处理；将预处理后的待检测图像输入至训练好的目标检测模型中，输出检测结果；其中，所述目标检测模型包括Swin Transformer模块、注意力融合模块和检测模块，所述Swin Transformer模块用于提取待检测图像的全局特征，所述注意力融合模块用于局部特征提取，并将全局特征和局部特征采用跨层级联的方式进行融合，所述检测模块用于根据融合后的特征输出检测结果。融合局部感受野与Transformer的全局信息，以进一步提升局部特征与全局信息融合的能力，增强低信噪比目标的检测效果。增强低信噪比目标的检测效果。增强低信噪比目标的检测效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Transformer和融合注意力机制的目标检测方法及系统

[0001]本专利技术属于深度学习计算机视觉相关
，尤其涉及一种基于Transformer和融合注意力机制的目标检测方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]随着近两年深度学习技术的发展，越来越精良的模型结构应运而生，2020年以前，图像视觉领域大多采用卷积神经网络(CNN)用于图像特征提取，卷积神经网络采用分层方式进行特征表示，相较于自然语言处理(NLP)采用序列进行特征表示，CNN需要逐层积累，由浅入深提取更高级的语义信息特征。即便如此CNN所获取的实际感受野仍远小于理论感受野，不利于特征信息的捕获，反而带来了计算量的剧增。为此不少学者开始尝试将NLP领域应用的Transformer应用于计算机视觉(CV)领域。2020年Google提出ViT模型验证了Transformer模型在图像分类领域的有效性。由此，基于Transformer的CV时代得以展开。Swin Transformer模型提出于CVPR2021，该模型通过shifted windows来计算，针对视觉实体的尺度变换以及图像高分辨问题，借助Shifted Windows Multi
‑
Head Self
‑
Attention(SW
‑
MSA)概念，实现信息在相邻窗口间的传递，加强上下文联系，Swin Transformer在性能上展...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，包括：获取待检测图像进行预处理；将预处理后的待检测图像输入至训练好的目标检测模型中，输出检测结果；其中，所述目标检测模型包括Swin Transformer模块、、注意力融合模块和检测模块，所述Swin Transformer模块用于提取待检测图像的全局特征，所述注意力融合模块用于局部特征提取，并将全局特征和局部特征采用跨层级联的方式进行融合，所述检测模块用于根据融合后的特征输出检测结果。2.如权利要求1所述的一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，所述Swin Transformer模块包括依次顺序连接的4个layer层，其中，layer1层包括依次连接的linear embedding层和2个Swin Transformer Block层；layer2层包括依次连接的Patch Merging层和2个Swin Transformer Block层；layer3层包括依次连接的Patch Merging层和6个Swin Transformer Block层；layer4层包括依次连接的Patch Merging层和2个Swin Transformer Block层。3.如权利要求1所述的一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，所述Swin Transformer Block层包括W
‑
MSA结构以及SW
‑
MSA结构，所述W
‑
MSA结构对特征图进行分割，分割为多个窗口；所述SW
‑
MSA结构对分割的多个窗口进行像素偏移，使多个窗口实现信息交流。4.如权利要求2所述的一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，1
×
1的卷积层分别对layer1层的输出特征图、layer2层的输出特征图以及layer4层的输出特征图进行维度变换分别得到第一特征图、第二特征图、第三特征图。5.如权利要求4所述的一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，分别将layer1层的linear embedding层的输出特征图与第一特征图、layer4层的Patch Merging层的输出特征图和layer4层的输出的第三特征图作为所述注意力融合模块的输入进行特征融合后输出第四特征图和第五特征图。6.如权利要求5所述的一种基于Transformer和融合注意力机制的目...

【专利技术属性】
技术研发人员：赵志刚，张兆虔，耿丽婷，霍吉东，李传涛，王春晓，张俭，李响，
申请(专利权)人：山东省计算中心国家超级计算济南中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人