当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于锚的全Transformer框架目标检测方法技术

技术编号:39000461 阅读:16 留言:0更新日期:2023-10-07 10:32
本发明专利技术公开了一种基于锚的全Transformer框架目标检测方法,包括以下步骤:使用Swin Transformer的层级编码器作为目标检测模型的主干网络,并对其进行训练;将待检测的图像输入训练好的模型中,利用模型的层级编码器提取图像特征;不同尺度的特征经过无卷积特征融合模块进行融合;经过融合的特征层再经过解码器,对每个特征层分配固定数量的锚点/锚框,并针对锚点/锚框进行目标边界框的中心点坐标和长宽值的预测;对预测结果分配正样本,并进行冲突解决和调整。本发明专利技术所公开的检测方法在不使用任何卷积层操作的前提下,仅使用Transformer框架模型达到了与卷积神经网络相当甚至更好的性能。当甚至更好的性能。当甚至更好的性能。

【技术实现步骤摘要】
一种基于锚的全Transformer框架目标检测方法


[0001]本专利技术涉及计算机视觉领域,特别涉及一种基于锚的全Transformer框架目标检测方法。

技术介绍

[0002]随着深度学习和计算机视觉研究的深入,Transformer在计算机视觉领域的许多方向已经部分超过甚至完全超过卷积神经网络的表现。目标检测是计算机视觉领域的重要研究方向,并且在监控布防、违章检测、医学图像分析等许多重要领域具有非常广阔的市场。但由于近几年卷积神经网络的发展,使得目前主流的目标检测器结构、框架较为单一,主要采用全卷积神经网络结构或卷积神经网络

Transformer混合的结构,缺少了全Transformer结构的目标检测器的存在。由于Transformer表现出比卷积神经网络更优异的潜力和性能,因此本专利技术进行全Transformer架构的目标检测网络探索,有助于进一步推动Transformer方法的进步。

技术实现思路

[0003]为解决上述技术问题,本专利技术提供了一种基于锚的全Transformer框架目标检测方法,搭建了一个全Transformer框架的目标检测模型,拓展了Transformer在目标检测中的应用同时也达到了较好的效果。
[0004]为达到上述目的,本专利技术的技术方案如下:
[0005]一种基于锚的全Transformer框架目标检测方法,包括以下步骤:
[0006]步骤一,使用Swin Transformer的层级编码器作为全Transformer目标检测模型的主干网络,并对其进行训练;
[0007]步骤二,将待检测的图像输入训练好的模型中,利用模型的层级编码器提取图像特征;
[0008]步骤三,不同尺度的特征经过无卷积特征融合模块进行自上而下和自下而上的不同尺度间特征层的融合;
[0009]步骤四,经过融合的特征层再经过解码器,对每个特征层分配固定数量的锚点/锚框,并针对锚点/锚框进行目标边界框的中心点坐标和长宽值的预测,得到预测结果;
[0010]步骤五,对解码器的预测结果分配正样本,以及对重复分配的相同样本进行冲突解决和调整。
[0011]上述方案中,步骤一中,模型的训练过程中,类别损失采用的是交叉熵损失,交叉熵损失CE公式如下所示:
[0012][0013]其中,N表示当前批次中的样本总数量,M表示类别总数,i表示第i个样本,c表示当前类别,y
ic
表示符号函数0或1,如果样本i的真实类别等于c则取1,否则取0,p
ic
表示样本i
属于第c个类别的概率,ic表示样本i属于第c个类别;
[0014]用Distance表示所有锚框与所有目标边界框的中心点距离,x
bbox
,y
bbox
表示目标边界框中心点的x、y相对坐标,x
ap
,y
ap
表示锚点的x、y相对坐标;
[0015]点得分P公式如下所示,点得分损失为均方差损失:
[0016]P=G(F(Distance))
[0017]其中,
[0018]目标边界框损失采用的是完全交并比损失,完全交并比损失如下所示:
[0019][0020]其中,v表示长宽比的相似性,gt表示目标真实值,w表示预测目标宽度,h表示预测目标高度,w
gt
表示目标真实值宽度,h
gt
表示目标真实值高度,α表示v的参数权重,以调节v的权重,IOU表示交并比;
[0021]置信度损失采用的是二值交叉熵损失,二值交叉熵损失BCE公式如下所示:
[0022][0023]其中,y
i
表示第i个样本的类别标签,正样本为1,负样本为0,p
i
表示第i个样本为正样本的概率。
[0024]上述方案中,步骤二中,层级编码器的实现方法如下:
[0025]使用小窗口对特征层进行切分,先在每个小窗口内部进行局部注意力计算,再使窗口向右向下偏移,使得原来相邻的四个窗口的注意力可以在新窗口计算注意力时进行传播;窗口注意力计算公式如下:
[0026][0027]其中,Q表示查询,K表示键,V表示值,B为相对位置偏置,d表示K的维度;
[0028]长宽为M的窗口,先按绝对位置坐标减去参考位置坐标得到相对位置坐标,再相对坐标加M

1,使得相对位置从0开始计数,行标乘以2M

1再与纵坐标相加得到相对位置索引,窗口中相对位置根据相对位置索引去相对位置偏置表中获取相对位置偏置。
[0029]上述方案中,步骤三中,无卷积特征融合模块的实现方法如下:
[0030]上层特征层经过块融合变换为维度加倍和宽高减半,当前特征层经过前馈神经网
络维度变化,两者通过拼接操作再与上层特征层块融合结果融合为自上而下融合;该层自上而下融合之后的特征层与上一层自上而下的特征层进行块融合下采样,再相加得到自下而上的融合过程,整个过程使用拼接和特征层维度和大小的线性变换组合而来,不使用任何卷积层。
[0031]上述方案中,步骤四的具体方法如下:
[0032]检测头的每一层由一组堆叠解码器组成,解码器中的输入为固定位置查询,每一个查询都只对一个区域进行预测,所有的查询代表的区域连接整个特征图,每个查询负责对其所代表的区域进行一对一固定预测,每个区域由一个锚点表示;预测完的结果分成并行分支:类别分支和边界框分支;在类别分支中,结果先通过一个前馈网络,然后再分成两个分支:类别分支和点得分分支,每个分支通过一个全连接层输出预测结果,类别分支是每个类的得分,数量与数据集类别数目相同,点得分分支是每个锚点预测该点与目标中心点距离的映射;边界框分支也同样再分成两个分支,同样各自经过一个全连接层输出对应的结果,两个分支分别为目标的边界框参数和每个预测边界框的对应的存在目标得分;
[0033]每个特征层都分配一定数量的锚点,每个特征层的锚点间隔不相同,间隔随着特征层下采样倍数的增加而增加,锚点横纵坐标数量根据如下公式产生:
[0034][0035]其中,feature
layer
表示特征层的序号,width和height表示特征层的宽度和高度,nx和ny表示横向锚点的数量和纵向锚点的数量;
[0036]每个特征层根据其序号和长宽来决定当前特征层锚点的数量,根据横纵坐标的数量生成相应的网格,由于网格从(0,0)开始,所以所有特征层的网格都向右向下偏移0.5个单位;
[0037]锚点方法直接根据锚点去预测目标x、y、w、h的坐标参数,t
x
与t
y
是网络关于x,y的直接预测结果,b
x
,b
y
是关于x,y的最终预测结果,具体公式如下:
[0038][0039]其中,σ为Sigmoid函数,2
×
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于锚的全Transformer框架目标检测方法,其特征在于,包括以下步骤:步骤一,使用Swin Transformer的层级编码器作为全Transformer目标检测模型的主干网络,并对其进行训练;步骤二,将待检测的图像输入训练好的模型中,利用模型的层级编码器提取图像特征;步骤三,不同尺度的特征经过无卷积特征融合模块进行自上而下和自下而上的不同尺度间特征层的融合;步骤四,经过融合的特征层再经过解码器,对每个特征层分配固定数量的锚点/锚框,并针对锚点/锚框进行目标边界框的中心点坐标和长宽值的预测,得到预测结果;步骤五,对解码器的预测结果分配正样本,以及对重复分配的相同样本进行冲突解决和调整。2.根据权利要求1所述的一种基于锚的全Transformer框架目标检测方法,其特征在于,步骤一中,模型的训练过程中,类别损失采用的是交叉熵损失,交叉熵损失CE公式如下所示:其中,N表示当前批次中的样本总数量,M表示类别总数,i表示第i个样本,c表示当前类别,y
ic
表示符号函数0或1,如果样本i的真实类别等于c则取1,否则取0,p
ic
表示样本i属于第c个类别的概率,ic表示样本i属于第c个类别;用Distance表示所有锚框与所有目标边界框的中心点距离,x
bbox
,y
bbox
表示目标边界框中心点的x、y相对坐标,x
ap
,y
ap
表示锚点的x、y相对坐标;点得分P公式如下所示,点得分损失为均方差损失:P=G(F(Distance))其中,目标边界框损失采用的是完全交并比损失,完全交并比损失如下所示:其中,v表示长宽比的相似性,gt表示目标真实值,w表示预测目标宽度,h表示预测目标高度,w
gt
表示目标真实值宽度,h
gt
表示目标真实值高度,α表示v的参数权重,以调节v的权重,IOU表示交并比;
置信度损失采用的是二值交叉熵损失,二值交叉熵损失BCE公式如下所示:其中,y
i
表示第i个样本的类别标签,正样本为1,负样本为0,p
i
表示第i个样本为正样本的概率。3.根据权利要求1所述的一种基于锚的全Transformer框架目标检测方法,其特征在于,步骤二中,层级编码器的实现方法如下:使用小窗口对特征层进行切分,先在每个小窗口内部进行局部注意力计算,再使窗口向右向下偏移,使得原来相邻的四个窗口的注意力可以在新窗口计算注意力时进行传播;窗口注意力计算公式如下:其中,Q表示查询,K表示键,V表示值,B为相对位置偏置,d表示K的维度;长宽为M的窗口,先按绝对位置坐标减去参考位置坐标得到相对位置坐标,再相对坐标加M

1,使得相对位置从0开始计数,行标乘以2M

1再与纵坐标相加得到相对位置索引,窗口中相对位置根据相对位置索引去相对位置偏置表中获取相对位置偏置。4.根据权利要求1所述的一种基于锚的全Transformer框架目标检测方法,其特征在于,步骤三中,无卷积特征融合模块的实现方法如下:上层特征层经过块融合变换为维度加倍和宽高减半,当前特征层经过前馈神经网络维度变化,两者通过拼接操作再与上层特征层块融合结果融合为自上而下融合;该层自上而...

【专利技术属性】
技术研发人员:郑艳伟陈锋于东晓
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1