一种基于锚的全Transformer框架目标检测方法技术

技术编号：39000461 阅读：16 留言：0更新日期：2023-10-07 10:32

本发明专利技术公开了一种基于锚的全Transformer框架目标检测方法，包括以下步骤：使用Swin Transformer的层级编码器作为目标检测模型的主干网络，并对其进行训练；将待检测的图像输入训练好的模型中，利用模型的层级编码器提取图像特征；不同尺度的特征经过无卷积特征融合模块进行融合；经过融合的特征层再经过解码器，对每个特征层分配固定数量的锚点/锚框，并针对锚点/锚框进行目标边界框的中心点坐标和长宽值的预测；对预测结果分配正样本，并进行冲突解决和调整。本发明专利技术所公开的检测方法在不使用任何卷积层操作的前提下，仅使用Transformer框架模型达到了与卷积神经网络相当甚至更好的性能。当甚至更好的性能。当甚至更好的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于锚的全Transformer框架目标检测方法

[0001]本专利技术涉及计算机视觉领域，特别涉及一种基于锚的全Transformer框架目标检测方法。

技术介绍

[0002]随着深度学习和计算机视觉研究的深入，Transformer在计算机视觉领域的许多方向已经部分超过甚至完全超过卷积神经网络的表现。目标检测是计算机视觉领域的重要研究方向，并且在监控布防、违章检测、医学图像分析等许多重要领域具有非常广阔的市场。但由于近几年卷积神经网络的发展，使得目前主流的目标检测器结构、框架较为单一，主要采用全卷积神经网络结构或卷积神经网络
‑
Transformer混合的结构，缺少了全Transformer结构的目标检测器的存在。由于Transformer表现出比卷积神经网络更优异的潜力和性能，因此本专利技术进行全Transformer架构的目标检测网络探索，有助于进一步推动Transformer方法的进步。

技术实现思路

[0003]为解决上述技术问题，本专利技术提供了一种基于锚的全Transformer框架目标检测方法，搭建了一个全Transformer框架的目标检测模型，拓展了Transformer在目标检测中的应用同时也达到了较好的效果。
[0004]为达到上述目的，本专利技术的技术方案如下：
[0005]一种基于锚的全Transformer框架目标检测方法，包括以下步骤：
[0006]步骤一，使用Swin Transformer的层级编码器作为全Transf...

【技术保护点】

【技术特征摘要】
1.一种基于锚的全Transformer框架目标检测方法，其特征在于，包括以下步骤：步骤一，使用Swin Transformer的层级编码器作为全Transformer目标检测模型的主干网络，并对其进行训练；步骤二，将待检测的图像输入训练好的模型中，利用模型的层级编码器提取图像特征；步骤三，不同尺度的特征经过无卷积特征融合模块进行自上而下和自下而上的不同尺度间特征层的融合；步骤四，经过融合的特征层再经过解码器，对每个特征层分配固定数量的锚点/锚框，并针对锚点/锚框进行目标边界框的中心点坐标和长宽值的预测，得到预测结果；步骤五，对解码器的预测结果分配正样本，以及对重复分配的相同样本进行冲突解决和调整。2.根据权利要求1所述的一种基于锚的全Transformer框架目标检测方法，其特征在于，步骤一中，模型的训练过程中，类别损失采用的是交叉熵损失，交叉熵损失CE公式如下所示：其中，N表示当前批次中的样本总数量，M表示类别总数，i表示第i个样本，c表示当前类别，y
ic
表示符号函数0或1，如果样本i的真实类别等于c则取1，否则取0，p
ic
表示样本i属于第c个类别的概率，ic表示样本i属于第c个类别；用Distance表示所有锚框与所有目标边界框的中心点距离，x
bbox
,y
bbox
表示目标边界框中心点的x、y相对坐标，x
ap
,y
ap
表示锚点的x、y相对坐标；点得分P公式如下所示，点得分损失为均方差损失：P＝G(F(Distance))其中，目标边界框损失采用的是完全交并比损失，完全交并比损失如下所示：其中，v表示长宽比的相似性，gt表示目标真实值，w表示预测目标宽度，h表示预测目标高度，w
gt
表示目标真实值宽度，h
gt
表示目标真实值高度，α表示v的参数权重，以调节v的权重，IOU表示交并比；
置信度损失采用的是二值交叉熵损失，二值交叉熵损失BCE公式如下所示：其中，y
i
表示第i个样本的类别标签，正样本为1，负样本为0，p
i
表示第i个样本为正样本的概率。3.根据权利要求1所述的一种基于锚的全Transformer框架目标检测方法，其特征在于，步骤二中，层级编码器的实现方法如下：使用小窗口对特征层进行切分，先在每个小窗口内部进行局部注意力计算，再使窗口向右向下偏移，使得原来相邻的四个窗口的注意力可以在新窗口计算注意力时进行传播；窗口注意力计算公式如下：其中，Q表示查询，K表示键，V表示值，B为相对位置偏置，d表示K的维度；长宽为M的窗口，先按绝对位置坐标减去参考位置坐标得到相对位置坐标，再相对坐标加M
‑
1，使得相对位置从0开始计数，行标乘以2M
‑
1再与纵坐标相加得到相对位置索引，窗口中相对位置根据相对位置索引去相对位置偏置表中获取相对位置偏置。4.根据权利要求1所述的一种基于锚的全Transformer框架目标检测方法，其特征在于，步骤三中，无卷积特征融合模块的实现方法如下：上层特征层经过块融合变换为维度加倍和宽高减半，当前特征层经过前馈神经网络维度变化，两者通过拼接操作再与上层特征层块融合结果融合为自上而下融合；该层自上而...

【专利技术属性】
技术研发人员：郑艳伟，陈锋，于东晓，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人