一种定向目标检测方法技术

技术编号:35647393 阅读:16 留言:0更新日期:2022-11-19 16:41
本发明专利技术公开了一种定向目标检测方法,所述方法包括以下步骤:输入目标图像;在Stem网络中将图像转化序列数据,即图像Token,对图像Token进行稀疏化采样,将采样得到的稀疏Token送入主干网络;在主干网络中提取图像信息的抽象特征;从主干网络输出的特征,在Head头部网络中判别类别和包围框预测;输出检测结果。本发明专利技术是第一个端到端的标准编解码结构Transformer网络进行目标检测的;本发明专利技术提出的网络无论是从网络结构还是从数据输入都是非对称形式的,有效缓解了Transformer网络高计算开销问题;本发明专利技术从稀疏图像Token中高效提取特征,很大程度上消除了图像中的信息冗余,减少了信息间的干扰,从而减少了网络训练收敛周期,提高了网络检测效果。提高了网络检测效果。提高了网络检测效果。

【技术实现步骤摘要】
一种定向目标检测方法


[0001]本专利技术涉及目标检测、遥感图像处理领域,具体涉及一种定向目标检测方法。

技术介绍

[0002]随着基于自注意力Transformer技术在计算机视觉领域的不断应用和创新,目前取得了不错的成果。DETR是Carion等人将Transformer技术第一次应用于目标检测,在通过卷积神经骨干网络提取特征后,利用Transformer结构作为头部网络,继续对特征进行编码解码,最终并行输出检测结果。在COCO数据集上效果与Faster RCNN相当,在大目标上效果优于Faster RCNN。Deformable DETR是商汤Jifeng Dai团队针对DETR的改进,针对DETR存在的收敛速度慢和特征空间分辨率受限的问题,提出了Deformable DETR,其注意力模块仅关注周围一小组关键采样点,可以在训练减少10倍的情况下获得比DETR更好的性能,尤其缓解了高分辨率特征图导致DETR不可接受的计算复杂性,这一点对高分辨的遥感图像目标检测是特别友好的。Swin Transformer是借鉴卷积神经网络的的设计理念以及先验知识,提出的层级结构去建模各个尺度目标的信息,并在局部窗口内使用自注意力网络模型,可代替卷积网络作为通用型骨干网络提取图像特征,再结合现有的头部网络,用于图像分类、目标检测、密集预测型等任务。
[0003]从上面可以看出,Transformer技术在目标检测领域的应用目前是作为网络的一个部件,或者头部网络,或者为通用型主干网络,整体网络是和卷积神经网络的一个混合体,网络结构较为复杂。
[0004]而目前主流的卷积检测网络在遥感目标检测方向上性能提升有限,那么是否可以设计一款网络结构更加简洁、性能更加强大的纯编解码网络结构的Transformer网络值得研究。

技术实现思路

[0005]鉴于现有技术的不足,本专利技术旨在于提供一种定向目标检测方法,概括而言,本专利技术以基于Transformer的骨干网络作为编码器,采用与原Transformer结构类似的解码器,最终直接输出检测结果。
[0006]具体的说:
[0007]1、本专利技术对图像稀疏采样后的图像Token进行抽象特征提取,作为引导信息Query。对于解码器,输入是全图像Token,但解码器本身是轻量级的,全图像信息首先在解码器中通过自注意力模块进行编码嵌入,最后在编码器输出Query的指导下进行特征对齐,将目标编码嵌入信息提取出来。
[0008]2.构建更加简洁的网络结构。本专利技术网络只有编解码器两个主要部件,没有其他部件,网络更加简洁高效。
[0009]为了实现上述目的,本专利技术采用的技术方案如下:
[0010]一种定向目标检测方法,所述方法包括以下步骤:
[0011]S1输入目标图像;
[0012]S2在Stem网络中将图像转化序列数据,即图像Token,对图像Token进行稀疏化采样,将采样得到的稀疏Token送入主干网络;
[0013]S3在主干网络中提取图像信息的抽象特征;
[0014]S4从主干网络输出的特征,在Head头部网络中判别类别和包围框预测;
[0015]S5输出检测结果。
[0016]需要说明的是,在每个Patch通过其内部的原始像素拼接得到一个序列数据Token,patch大小为P
×
P(本专利技术中P大小设置为4);其次,通过线性嵌入层将维度映射至C,得到3D图像转化为1D的序列数据X
T
∈R
N
×
C
,N=HW/P2表示Token的数量;最后一方面将得到的全量Token经位置编码后送入解码器中,另一方面是对所有的Token进行均匀随机性采样,未采样的Token直接摒弃掉,将采样得到的稀疏Token经位置编码后送入编码器,采样率设置为r。
[0017]需要指出的是,所述的Patch是由图像切分而来的,即,将RGB图像X∈R
H
×
W
×3划分为不重叠的Patches
[0018]需要说明的是,所述主干网络由编码器与解码器组成。
[0019]需要说明的是,所述编码器包括标准的VIT网络或层级结构的Swin Transformer;其中:
[0020]在采用所述VIT网络中,将采样得到的稀疏Token送入一系列的Transformer block中,在编码器的最后进行池化操作,进一步聚合Token数量,将维度调整至256;
[0021]在采用所述层级结构Swin Transformer,首先通过Reshape操作将Token数据转为形式,再根据Swin Transformer网络在窗口内进行自注意力的计算提取图像信息特征,经过线性层将通道压缩至256。最终输出特征X
output
中Token数量减少为输入X
input
的1/64。
[0022]需要说明的是,所述解码器的输入来自一部分为编码器的输出,另一部分是整幅图像转化为序列数据的全部Token,并进行位置编码。
[0023]需要说明的是,在所述步骤S4中,Head头部网络包括两个前馈神经网络,基于主干网络输出的特征,预测出目标实例的包围框和类别;其中,可分别表示如下:
[0024]b=sigmoid(FFN(f))、c=FFN(f);
[0025]上式中,f是提取的特征,b是五维向量[b
cx b
cy b
w b
h b
θ
],前四维分别表示包围框的中心点坐标以及长和宽,最后一维表示包围框的角度;sigmoid函数用来将预测的向量处理到[0,1]区间,表示这个图像的位置相对于图像长宽的大小,c表示为类别的预测。
[0026]本专利技术有益效果在于:
[0027]1、本专利技术是第一个端到端的标准编解码结构Transformer网络进行目标检测的;
[0028]2、本专利技术提出的网络无论是从网络结构还是从数据输入都是非对称形式的,有效缓解了Transformer网络高计算开销问题;
[0029]3、本专利技术从稀疏图像Token中高效提取特征,很大程度上消除了图像中的信息冗余,减少了信息间的干扰,从而减少了网络训练收敛周期,提高了网络检测效果;
[0030]4、本专利技术根据旋转框表示的特点,对损失函数进行了改进,消除了角度周期性及
宽度和高度互换造成的损失突变,训练更加稳定。
附图说明
[0031]图1为本专利技术的流程示意图;
[0032]图2为本专利技术的网络结构示意图;
[0033]图3为本专利技术的VIT结构的编码器示意图;
[0034]图4为本专利技术的Swin Transformer结构的编码器示意图。
具体实施方式
[0035]下将结合附图对本专利技术作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种定向目标检测方法,其特征在于,所述方法包括以下步骤:S1输入目标图像;S2在Stem网络中将图像转化序列数据,即图像Token,对图像Token进行稀疏化采样,将采样得到的稀疏Token送入主干网络;S3在主干网络中提取图像信息的抽象特征;S4从主干网络输出的特征,在Head头部网络中判别类别和包围框预测;S5输出检测结果。2.根据权利要求1所述的定向目标检测方法,其特征在于,在每个Patch通过其内部的原始像素拼接得到一个序列数据Token,patch大小为P
×
P(本发明中P大小设置为4);其次,通过线性嵌入层将维度映射至C,得到3D图像转化为1D的序列数据X
T
∈R
N
×
C
,N=HW/P2表示Token的数量;最后一方面将得到的全量Token经位置编码后送入解码器中,另一方面是对所有的Token进行均匀随机性采样,未采样的Token直接摒弃掉,将采样得到的稀疏Token经位置编码后送入编码器,采样率设置为r;其中,所述的Patch是由图像切分而来的,即,将RGB图像X∈R
H
×
W
×3划分为不重叠的Patches3.根据权利要求1所述的定向目标检测方法,其特征在于,所述主干网络由编码器与解码器组成。4.根据权利要求1所述的定向目标检测方法,其特征在于,所述编码器包括标准的VIT网络或层级结构的Swin Transf...

【专利技术属性】
技术研发人员:何林远刘旭伦许悦雷马时平周理刘达王晨史鹤欢陈广阳马国勇
申请(专利权)人:中国人民解放军空军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1