当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于Transformer的旋转目标检测方法技术

技术编号:32827893 阅读:30 留言:0更新日期:2022-03-26 20:33
本发明专利技术公开了一种基于Transformer的旋转目标检测方法。基于ResNet50网络设计特征提取模块,加入SPP模块;基于Transformer算法设计探测头,采用多尺度输入,叠加层嵌入和位置嵌入;改进自注意力模块,加入窗口机制并且随机选取向量进行全局计算以弥补全局信息,同时能起到加速作用;设计多种不同角度窗口,更加适合旋转目标的检测;增加角度预测值,预测角度的正弦及余弦值。本发明专利技术能有效提高旋转目标的检测准确性,并且优化了传统Transformer推理速度慢的问题。速度慢的问题。速度慢的问题。

【技术实现步骤摘要】
一种基于Transformer的旋转目标检测方法


[0001]本专利技术属于图像处
,具体涉及一种基于Transformer的快速旋转目标检测方法。

技术介绍

[0002]近年来人工智能领域不断发展,目标检测一类的技术是其中的重要组成部分。目标检测的任务为找出图像中感兴趣目标的中心点以及其长宽,即预测一个包含目标的矩形。现实生活中的许多物品如商场中的货架、商店门口的文字标识等具有较大的长宽比并且角度任意。对于这些目标,更适合使用旋转目标检测的方法来进行目标检测,即预测一个带有角度的包含目标的矩形。相比起传统的目标检测,旋转目标检测多出了角度预测的任务,并且由于宽高比较大,相比传统目标需要更大的接收域。
[0003]近年来原本应用于自然语言处理领域的Transformer算法开始在计算机视觉领域得到应用。Transformer强大的建模能力以及自注意力机制使得其在视觉领域大放异彩。DETR是目前将Transformer应用于目标检测领域的性能较为优异的算法,然而由于Transformer本身计算量较大,因此推理速度较慢,对于一些要求实时性的应用场景无法适用。并且,自注意力机制对于全局信息关注的这一特性在应用于图像的目标检测问题时,会使得小目标检测效果较差。本专利技术将深度学习的骨架网络与Transformer进行结合,并且对自注意力机制进行了改进,在追求高精度的同时能达到较快的推理速度,适用于更多需要实时性的场景。

技术实现思路

[0004]为了解决
技术介绍
中存在的问题,本专利技术提供了一种基于Transformer的快速旋转目标检测方法,能够兼顾速度以及性能。
[0005]本专利技术采取的技术方案如下:
[0006]本专利技术基于Transformer的快速旋转目标检测方法包括以下步骤:
[0007]1)采集场景中具有旋转目标的图像作为数据集;
[0008]2)构建用于图像旋转目标检测的网络结构;
[0009]所述的用于图像旋转目标检测的网络结构包括特征提取模块和改进后的 Transformer;特征提取模块以ResNet50为骨架网络,在ResNet50骨架网络之后增加SPP模块;改进后的Transformer模块为对原始Transformer的自注意力机制模块进行改进,在自注意力机制模块加入随机点全局补偿设计以及旋转窗口设计;
[0010]3)根据数据集训练用于图像旋转目标检测的网络结构,获得旋转目标检测模型;
[0011]4)利用旋转目标检测模型对待检测图像进行旋转目标检测。
[0012]所述特征提取模块输出多种不同尺度的特征图,多种不同尺度的特征图分别为ResNet50中第三层、第四层、第五层的输出。
[0013]将特征提取模块输出的多种不同尺度的特征图叠加位置嵌入emb
pos
(H,W) 和层次
嵌入emb
layer
(n),具体为:
[0014]L

n
=L

n
+emb
pos
(H,W)+emb
layer
(n)
[0015]emb
pos
(H,W)=linear(H,W)
[0016]emb
layer
(n)=linear(n)
[0017]其中,L

n
表示特征提取模块第n层的输出,n为特征提取模块输出特征图对应的ResNet50的层编号;linear表示线性映射;H、W为输入特征图的尺寸;
[0018]将叠加位置嵌入和层次嵌入后的特征图L

n
拉平为一维向量L
n

[0019]对拉平后的多种不同尺度特征图进行拼接,获得改进后的Transformer模块的输入T
input

[0020]T
input
=concat(L3,L4,L5)
[0021]其中,concat()表示向量的拼接。
[0022]所述的随机点全局补偿设计具体为:采取加窗方式对自注意力模块的计算范围进行限制;
[0023]所述加窗方式为自注意力模块在计算时,在窗口内随机选取部分向量使其与全局向量计算自注意力,窗口内剩余向量仅与窗口内的所有向量进行自注意力计算。部分向量占窗口内向量总数的5%~10%。
[0024]所述的旋转窗口设计具体为:在多头自注意力模块的窗口设计多个具有角度的倾斜窗体,倾斜窗体的数量与头数数量一致,自注意力模块的头数为设定阈值;多个倾斜窗体的角度为0~180
°
角度范围内的等差数列。
[0025]以3
×
3的窗口为例,若窗口中心坐标为(0,0),则原本窗口内的点相对窗口中心的位置的表达式如下:
[0026]R={(0,1),(0,

1),(

1,0),(1,0),(

1,

1),(

1,1),(1,1),(1,

1)}
[0027]其中,R表示窗口内其余点相对于窗口中心位置的坐标;
[0028]则倾斜45
°
后,倾斜窗口内其余点相对于窗口中心位置的坐标表达式如下:
[0029]R

={(0,1),(0,

1),(

1,0),(1,0),(

1,1),(1,

1),(

1,2),(1,

2)}。
[0030]所述步骤2)中,用于图像旋转目标检测的网络结构的输出层采取全连接的探测头模块,预测时增加角度预测值,避免直接回归角度,预测角度的正弦及余弦值,最终合成角度值。
[0031]本专利技术的有益效果:
[0032]本专利技术可应用于遥感图像目标检测、场景文字检测等多种场景,且可取得现阶段较为优异的检测效果。并且,本专利技术提出的方法计算量相对较小,可应用于一些计算资源受限的场景,如部署于开发板。
附图说明
[0033]图1为特征提取模块示意图,(a)为骨架网络,(b)为残差块,(c)为 SPP模块。
[0034]图2为Transformer与特征提取模块连接方式示意图。
[0035]图3为自注意力模块中不同窗口示意图。
[0036]图4为自注意力模块弥补全局信息示意图。
[0037]图5为整体网络示意图。
[0038]图6为数据集及检测效果示意图。
具体实施方式
[0039]下面结合附图和实施例对本专利技术进行进一步说明。
[0040]本专利技术以遥感船只检测任务为例,具体说明本专利技术的工作流程。按照本
技术实现思路
完整实施的实施例如下:
[0041](1)采集场景中具有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的快速旋转目标检测方法,其特征在于,包括以下步骤:1)采集场景中具有旋转目标的图像作为数据集;2)构建用于图像旋转目标检测的网络结构;所述的用于图像旋转目标检测的网络结构包括特征提取模块和改进后的Transformer;特征提取模块以ResNet50为骨架网络,在ResNet50骨架网络之后增加SPP模块;改进后的Transformer模块为对原始Transformer的自注意力机制模块进行改进,在自注意力机制模块加入随机点全局补偿设计以及旋转窗口设计;3)根据数据集训练用于图像旋转目标检测的网络结构,获得旋转目标检测模型;4)利用旋转目标检测模型对待检测图像进行旋转目标检测。2.根据权利要求1所述的基于Transformer的快速旋转目标检测方法,其特征在于,所述特征提取模块输出多种不同尺度的特征图,多种不同尺度的特征图分别为ResNet50中第三层、第四层、第五层的输出。3.根据权利要求1中的基于Transformer的快速旋转目标检测方法,其特征在于,将特征提取模块输出的多种不同尺度的特征图叠加位置嵌入emb
pos
(H,W)和层次嵌入emb
layer
(n),具体为:L

n
=L

n
+emb
pos
(H,W)+emb
layer
(n)emb
pos
(H,W)=linear(H,W)emb
layer
(n)=...

【专利技术属性】
技术研发人员:刘而云莫妮卡
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1