当前位置: 首页 > 专利查询>重庆大学专利>正文

基于多尺度令牌的目标检测方法及系统技术方案

技术编号:37437619 阅读:13 留言:0更新日期:2023-05-06 09:09
本发明专利技术属于计算机视觉技术领域,具体公开了一种基于多尺度令牌的目标检测方法及系统,该方法将原始图像卷积为图像块,构建目标检测网络,目标检测网络包括多个多尺度内部令牌模块和多个差滤残差模块;将图像块输入第一阶段的多尺度内部令牌模块和差滤残差模块;将上一阶段的多尺度内部令牌模块的多尺度输出,和上一阶段的差滤残差模块的输出作为下一阶段的多尺度内部令牌模块的输入,上一阶段的差滤残差模块的输出作为下一阶段的差滤残差模块的输入;将最后阶段的多尺度内部令牌模块和最后阶段差滤残差模块的输出进行融合,得到目标检测结果。采用本技术方案,利用多尺度内部令牌模块和多个差滤残差模块,有效提取多尺度特征,优化目标检测性能。优化目标检测性能。优化目标检测性能。

【技术实现步骤摘要】
基于多尺度令牌的目标检测方法及系统


[0001]本专利技术属于计算机视觉
,涉及一种基于多尺度令牌的目标检测方法及系统。

技术介绍

[0002]目标检测一直是计算机视觉领域中的核心任务,计算机收集存储学习现实世界的图像,提取深层特征最终精准高效的捕获图像中感兴趣的区域,并在该目标周围绘制边界框,得到其类别信息与二维坐标信息。随着智能化与信息化时代的发展,目标检测技术越来越渗透在实际应用中,如自动驾驶、人脸识别、公共安全等,在学术界或商业界具有很大的现实研究意义与价值。
[0003]目前,视觉变压器在目标检测方面取得了令人印象深刻的性能,传统的目标检测只关注令牌和令牌之间的多尺度特性,并没有注意到单个标记内的细粒度特征,这可能会导致目标检测任务中语义信息的丢失。

技术实现思路

[0004]本专利技术的目的在于提供一种基于多尺度令牌的目标检测方法及系统,避免语义信息丢失,优化目标检测性能。
[0005]为了达到上述目的,本专利技术的基础方案为:一种基于多尺度令牌的目标检测方法,包括如下步骤:
[0006]获取原始图像,将原始图像卷积为a和b两种大小的图像块;
[0007]构建目标检测网络,目标检测网络包括多个不同尺度的多尺度内部令牌模块和与其对应的多个差滤残差模块;
[0008]将图像块输入第一阶段的多尺度内部令牌模块和差滤残差模块;
[0009]将上一阶段的多尺度内部令牌模块的多尺度输出,和上一阶段的差滤残差模块的输出作为下一阶段的多尺度内部令牌模块的输入,上一阶段的差滤残差模块的输出作为下一阶段的差滤残差模块的输入;
[0010]将最后阶段的多尺度内部令牌模块的输出和最后阶段差滤残差模块的输出进行融合,得到目标检测结果。
[0011]本基础方案的工作原理和有益效果在于:多尺度内部令牌模块和差滤残差模块,多尺度内部令牌模块可以通过关注单个输入标记内的多尺度特性来丰富细粒度特性。差滤残差模块作为一个卷积残差网络,有助于增强单个标记的局部空间特征,学习更多的边缘信息,本方案可以在目标检测方面达到最先进的性能。
[0012]进一步,多尺度内部令牌模块取得多尺度输出的方法如下:
[0013]将图像令牌映射到三个矩阵Q、K和V,使用卷积将矩阵K和V降采样到不同的尺度:
[0014][0015]K
i,j
=MS
j
(K
i
),j=1,2,3...
[0016]V
i,j
=MS
j
(V
i
),j=1,2,3...
[0017][0018]其中,MS是一个多尺度函数,i表示采样阶段,j表示不同的尺度大小;Q为查询矩阵,K表示被查询信息与其他信息的相关性的矩阵,V表示被查询信息的矩阵;X是特征图,W是权重矩阵;W
Qi
,W
Ki
,W
Vi
表示对特征图X赋以一个对应权重矩阵;Softmax为归一化函数,Atttention是自注意力的符号标记;T表示转置,d
k
表示矩阵K的维度;MS
j
(K
i
)表示在第i个阶段对矩阵K做j尺度大小的变换,MS
j
(V
i
)表示在第i个阶段对矩阵V做j尺度大小的变换,Q
i
,K
i
,V
i
为第i个采样阶段计算出来的查询矩阵,相关性的矩阵,被查询信息的矩阵;
[0019]通过多尺度变换得到不同大小的矩阵K
i,j
和V
i,j
,通过上采样将矩阵K
i,j
和V
i,j
的矩阵尺寸进行统一,然后进行拼接;
[0020]对矩阵K
i,j
和V
i,j
进行重新排列,在行和列方向上以预设值为间隔重新排列元素,为K
j
和V
j
形成新的键值对,扩展接受域,在不丢失信息的情况下实现全局感知;
[0021]应用一个非线性变换层来扩展搜索特征子空间,非线性变换层包括依次连接的线性层、relu层、池化层和线性层,以拟合更丰富的图像特征;结合线性变换层,找到更多的Q、K和V的组合来挖掘标记的细粒度特征,线性变换层采用全连接层连接变换,非线性变换层和线性变换层由两个完全连接的层组成,一个池化层和一个激活函数:
[0022]Q
non
=f(Activate(f(Q))+b)
[0023]K
non
=f(Activate(f(K))+b)
[0024]V
non
=f(Activate(f(V))+b)
[0025]其中,f是一个线性函数,Activate是一个激活函数,b是一个偏差;
[0026]使用双特征提取方法,通过不同的卷积核卷积原始图像,得到不同的特征图,来丰富输入标记的空间上下文和细粒度特征,对于输入原始图像X,使用一个大小为1*1的非重叠滑动窗口来获得嵌入标记,关注细粒度的特征;利用一个大小为3*3和步幅为预设值的重叠滑动窗口来捕获空间上下文。
[0027]卷积操作可以学习局部上下文来丰富语义特征,弥补了模型只能捕获全局上下文信息的缺陷。将注意力集中在不同的级别,有利于单个令牌学习内部潜在的细粒度特性。
[0028]进一步,差滤残差模块提取输入端的高频信息的方法如下:
[0029]设图像令牌的大小为C*H*w,应用平均池化获得平滑特征,然后使用两个卷积核获得两个不同的平滑图像G
A
、G
B

[0030]G
A
,G
B
=Cov(Avgpool(G))
[0031]其中,Cov表示卷积函数,卷积核大小是3*3,步幅是1,填充是1;Avgpool表示池化函数,平均池内核大小为2*2,步幅为2;G为原始图形;
[0032]G
A
、G
B
相减得到差分图像,然后上采样恢复特征图的大小。
[0033]利用差滤残差模块,提取输入端的高频信息,减少注意机制中的语义歧义。
[0034]进一步,得到目标检测结果的方法如下:
[0035]根据图像的边缘信息的语义重要性进行计算和融合:
[0036][0037][0038]其中,f是一个近似于1*1卷积层的线性函数;T是输入的特征图矩阵,H、w为特征图的高、宽,Gaus表示目标检测函数,ζ是归一化函数,x是函数的变量,即矩阵像素值。
[0039]计算简单,利于操作。
[0040]本专利技术还提供一种基于多尺度令牌的目标检测系统,包括数据采集模块和处理模块,所述数据采集模块用于获取原始图像,数据采集模块的输出端与处理模块的输入端连接,所述处理模块执行本专利技术所述方法,进行目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度令牌的目标检测方法,其特征在于,包括如下步骤:获取原始图像,将原始图像卷积为a和b两种大小的图像块;构建目标检测网络,目标检测网络包括多个不同尺度的多尺度内部令牌模块和与其对应的多个差滤残差模块;将图像块输入第一阶段的多尺度内部令牌模块和差滤残差模块;将上一阶段的多尺度内部令牌模块的多尺度输出,和上一阶段的差滤残差模块的输出作为下一阶段的多尺度内部令牌模块的输入,上一阶段的差滤残差模块的输出作为下一阶段的差滤残差模块的输入;将最后阶段的多尺度内部令牌模块的输出和最后阶段差滤残差模块的输出进行融合,得到目标检测结果。2.如权利要求1所述的基于多尺度令牌的目标检测方法,其特征在于,多尺度内部令牌模块取得多尺度输出的方法如下:将图像令牌映射到三个矩阵Q、K和V,使用卷积将矩阵K和V降采样到不同的尺度:K
i,j
=MS
j
(K
i
),j=1,2,3...V
i,j
=MS
j
(V
i
),j=1,2,3...其中,MS是一个多尺度函数,i表示采样阶段,j表示不同的尺度大小;Q为查询矩阵,K表示被查询信息与其他信息的相关性的矩阵,V表示被查询信息的矩阵;X是特征图,W是权重矩阵;W
Qi
,W
Ki
,W
Vi
表示对特征图X赋以一个对应权重矩阵;Softmax为归一化函数,Atttention是自注意力的符号标记;T表示转置,d
k
表示矩阵K的维度;MS
j
(K
i
)表示在第i个阶段对矩阵K做j尺度大小的变换,MS
j
(V
i
)表示在第i个阶段对矩阵V做j尺度大小的变换,Q
i
,K
i
,V
i
为第i个采样阶段计算出来的查询矩阵,相关性的矩阵,被查询信息的矩阵;通过多尺度变换得到不同大小的矩阵K
i,j
和V
i,j
,通过上采样将矩阵K
i,j
和V
i,j
的矩阵尺寸进行统一,然后进行拼接;对矩阵K
i,j
和V
i,j
进行重新排列,在行和列方向上以预设值为间隔重新排列元素,为K
j
和V
j
形成新的键值对,扩展接受域,在不丢失信息的情况下实现全局感知;应用一个非线性变换层来扩展搜索特征子空间,非线性变换层包括依次连接的线性层、relu层、池化层和线性层,以拟合更丰富的图像特征;结合线性变换层,找到更多的Q、K和V的组合来挖掘标记的细粒度特征,线性变换层采用全连接层连接变换,非线性变换层和线性变换层由两个完全连接的层组成,一个池化层和一个激活函数:Q
non
=f(Activate(f(Q))+b)K
non

【专利技术属性】
技术研发人员:肖宇张太平尚赵伟邱涛蒋欣杞杨奇
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1