【技术实现步骤摘要】
基于多尺度令牌的目标检测方法及系统
[0001]本专利技术属于计算机视觉
,涉及一种基于多尺度令牌的目标检测方法及系统。
技术介绍
[0002]目标检测一直是计算机视觉领域中的核心任务,计算机收集存储学习现实世界的图像,提取深层特征最终精准高效的捕获图像中感兴趣的区域,并在该目标周围绘制边界框,得到其类别信息与二维坐标信息。随着智能化与信息化时代的发展,目标检测技术越来越渗透在实际应用中,如自动驾驶、人脸识别、公共安全等,在学术界或商业界具有很大的现实研究意义与价值。
[0003]目前,视觉变压器在目标检测方面取得了令人印象深刻的性能,传统的目标检测只关注令牌和令牌之间的多尺度特性,并没有注意到单个标记内的细粒度特征,这可能会导致目标检测任务中语义信息的丢失。
技术实现思路
[0004]本专利技术的目的在于提供一种基于多尺度令牌的目标检测方法及系统,避免语义信息丢失,优化目标检测性能。
[0005]为了达到上述目的,本专利技术的基础方案为:一种基于多尺度令牌的目标检测方法,包括如下步骤:
[0006]获取原始图像,将原始图像卷积为a和b两种大小的图像块;
[0007]构建目标检测网络,目标检测网络包括多个不同尺度的多尺度内部令牌模块和与其对应的多个差滤残差模块;
[0008]将图像块输入第一阶段的多尺度内部令牌模块和差滤残差模块;
[0009]将上一阶段的多尺度内部令牌模块的多尺度输出,和上一阶段的差滤残差模块的输出作为下一阶段的多尺度内部令牌模块 ...
【技术保护点】
【技术特征摘要】
1.一种基于多尺度令牌的目标检测方法,其特征在于,包括如下步骤:获取原始图像,将原始图像卷积为a和b两种大小的图像块;构建目标检测网络,目标检测网络包括多个不同尺度的多尺度内部令牌模块和与其对应的多个差滤残差模块;将图像块输入第一阶段的多尺度内部令牌模块和差滤残差模块;将上一阶段的多尺度内部令牌模块的多尺度输出,和上一阶段的差滤残差模块的输出作为下一阶段的多尺度内部令牌模块的输入,上一阶段的差滤残差模块的输出作为下一阶段的差滤残差模块的输入;将最后阶段的多尺度内部令牌模块的输出和最后阶段差滤残差模块的输出进行融合,得到目标检测结果。2.如权利要求1所述的基于多尺度令牌的目标检测方法,其特征在于,多尺度内部令牌模块取得多尺度输出的方法如下:将图像令牌映射到三个矩阵Q、K和V,使用卷积将矩阵K和V降采样到不同的尺度:K
i,j
=MS
j
(K
i
),j=1,2,3...V
i,j
=MS
j
(V
i
),j=1,2,3...其中,MS是一个多尺度函数,i表示采样阶段,j表示不同的尺度大小;Q为查询矩阵,K表示被查询信息与其他信息的相关性的矩阵,V表示被查询信息的矩阵;X是特征图,W是权重矩阵;W
Qi
,W
Ki
,W
Vi
表示对特征图X赋以一个对应权重矩阵;Softmax为归一化函数,Atttention是自注意力的符号标记;T表示转置,d
k
表示矩阵K的维度;MS
j
(K
i
)表示在第i个阶段对矩阵K做j尺度大小的变换,MS
j
(V
i
)表示在第i个阶段对矩阵V做j尺度大小的变换,Q
i
,K
i
,V
i
为第i个采样阶段计算出来的查询矩阵,相关性的矩阵,被查询信息的矩阵;通过多尺度变换得到不同大小的矩阵K
i,j
和V
i,j
,通过上采样将矩阵K
i,j
和V
i,j
的矩阵尺寸进行统一,然后进行拼接;对矩阵K
i,j
和V
i,j
进行重新排列,在行和列方向上以预设值为间隔重新排列元素,为K
j
和V
j
形成新的键值对,扩展接受域,在不丢失信息的情况下实现全局感知;应用一个非线性变换层来扩展搜索特征子空间,非线性变换层包括依次连接的线性层、relu层、池化层和线性层,以拟合更丰富的图像特征;结合线性变换层,找到更多的Q、K和V的组合来挖掘标记的细粒度特征,线性变换层采用全连接层连接变换,非线性变换层和线性变换层由两个完全连接的层组成,一个池化层和一个激活函数:Q
non
=f(Activate(f(Q))+b)K
non
【专利技术属性】
技术研发人员:肖宇,张太平,尚赵伟,邱涛,蒋欣杞,杨奇,
申请(专利权)人:重庆大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。