当前位置: 首页 > 专利查询>山西大学专利>正文

一种融合卷积与ViT的图像方向识别方法技术

技术编号:38683424 阅读:13 留言:0更新日期:2023-09-02 22:56
本发明专利技术属于图像分类与计算机视觉技术领域,公开了一种融合卷积与ViT的图像方向识别方法。针对图像方向识别方法大多考虑图像的语义信息,对空间和方向信息考虑不足。提出了方向金字塔ViT模型,它融合了卷积神经网络和ViT框架来实现图像方向的自动识别。MOAB捕捉不同尺度下中心子图与其周围邻域子图之间的相对位置信息;将条件位置编码和可变形卷积进行结合,即DCPE。DCPE在条件位置编码中加入了可变形卷积,既能适应不同尺寸的输入图像,又能表达图像的旋转特性;将方向卷积方法应用于TransformerEncoder Block中的Self

【技术实现步骤摘要】
一种融合卷积与ViT的图像方向识别方法


[0001]本专利技术属于图像分类与计算机视觉
,具体涉及一种融合卷积与ViT的图像方向识别方法。

技术介绍

[0002]随着数字成像、摄影和图像理解技术的发展,数码相机、智能手机和其他电子产品的广泛使用,人们对数字图像存储、检索和处理工具的需求越来越大。这些工具都需要图像的方向信息,使图像能被正确的处理和显示。目前,检测图像的方向在许多领域中是非常必要的,如自然摄影,医学诊断、机器人辅助自动干预系统(RAIS)、指纹验证系统和人脸检测。智能手机和数码相机都有一个内置的方位传感器,可以在拍照时跟踪相机的方向,并将其存储在图像的EXIF元数据中。在磁共振成像(MRI)中,切片组的位置和方向对于实现高质量的图像诊断和满足各种临床工作至关重要。在自动机器人辅助干预系统(RAIS)的支气管镜检查中,有一种检测支气管图像分支方向的技术,可以防止外科医生疲劳并最大限度地减少错误。使用指纹进行个人认证的系统需要被测指纹匹配模式图像的大小、类型和方向。这种用于检测指纹图像方向的方法显著提高了系统的精度。在人脸检测系统中,上下颠倒显示的图像将降低视觉显著性。因此,在将人脸图像发送到人脸识别系统之前进行校正可以提高检测性能,防止不诚实的行为。一般地,拍摄照片时照片的方向是由相机的旋转来确定,任何角度都是可能的,但是旋转90
°
是最常见的。图像处理工具一旦检测到图像方向是90的倍数,图像方向就很容易被校正。因此,通常假设图像旋转依赖于四个方向之一(0
°
,90
°
,180
°
和270
°
)。由于图片类型和内容多种多样,形成一个能广泛用于不同种类图像的自动方向检测系统是一项具有挑战性的任务。
[0003]目前研究中,图像方向识别方法大多采用图像处理与深度学习算法。尽管如此,这些方法存在一些问题:(1)主要依赖图像的低层特征,如纹理,颜色和形状等。但由于现阶段图像样本数量的不断增加,以及低层特征和高层图像语义之间的语义鸿沟,手工构建的特征往往在性能上受到限制,没有充分考虑人类视觉机理对图像方向感知的影响。(2)针对特殊的图像,比如抽象图像的内容和语义相对比较含蓄,不明显,导致这些方法应用于抽象画时识别结果不是很理想。(3)使用的网络模型的结构比较单一,大多直接对现有的神经网络进行微调,如(VGG,AlexNet或ResNet等)。模型特征主要表达了图像的高层语义特征,但没有考虑图像内容的空间位置信息对方向判断的影响。(4)模型对输入图片的大小要求是一致的,如果不满足,需要进行缩放或裁剪。但是,图像的长度与宽度对方向的判断有很大的影响。

技术实现思路

[0004]针对目前图像方向识别的问题,本专利技术提供了一种融合卷积与ViT的图像方向识别方法。
[0005]为了达到上述目的,本专利技术采用了下列技术方案:
[0006]一种融合卷积与ViT的图像方向识别方法方法,包括以下步骤:
[0007]步骤1,将每幅图像分别按顺时针旋转四个角度0度、90度、180度和270度,每幅图像最终得到四个不同方向的图像(0
°
,90
°
,180
°
和270
°
);
[0008]步骤2,输入一幅图像,采用多尺度Outlook Attentation模块(MOAB),计算每个中心点与周围不同尺度邻域内的k
×
k个像素点的注意力,k表示当前位置对应的邻域尺度。MOAB能捕捉某个中心子图与其周围邻域子图的相对位置信息,具体步骤如下:
[0009]步骤2.1,对大小为H
×
W
×
C的输入图像进行线性变换,得到维度为H
×
W
×
k4的特征图,其中,H表示特征图的高度,W表示特征图的宽度,C表示特征图的通道数;
[0010]步骤2.2,将步骤2.1中得到的H
×
W
×
k4特征图的维度变换成注意力特征图(H
×
W,k
×
k,k
×
k),之后采用SoftMax得到注意力图AM(Attentation Map);
[0011]步骤2.3,采用“Linear+Unfold”操作将AM映射到一个新的特征空间V(H
×
W,C,k
×
k);
[0012]步骤2.4,将注意力图AM与特征空间V进行矩阵相乘,之后通过“Fold”操作,将特征图还原到原始输入图像的大小;
[0013]步骤2.5,采用不同的尺度k(k=3,5)分别执行步骤2.1~2.4,得到两个不同尺度的Outlook Attentation(OA),分别记作OA_3和OA_5;
[0014]步骤2.6,将OA_3、OA_5和输入特征进行线性相加,记作OA_Fusion=OA_3

OA_5

input feature。其中,

表示对应元素相加;
[0015]步骤2.7,最后,对OA_Fusion使用层归一化(LayerNorm,LN)和多层感知机(Multilayer Perceptron,MLP)的残差连接,即OA_Fusion+LN&MLP(OA_Fusion),得到新的特征图;
[0016]步骤2.8,将步骤2.7得到的特征图进行Patch Embedding,包括:一个卷积操作,层归一化Layer Norm和展平Flatten操作。最终,得到token序列(N
×
d),其中N表示序列的个数,d表示序列的维度;
[0017]步骤3,将条件位置编码(CPE)和可变性卷积(DCN)进行结合,即把CPE中的F函数替换为DCN,记作DCPE。DCPE既能对不同尺寸的输入进行编码,编码中又能包含每个patch的空间排列信息,体现图像的旋转特性,具体步骤如下:
[0018]步骤3.1,将步骤2.8中得到的token序列作为输入,并把维度变换为二维图像空间中的H
×
W
×
C;
[0019]步骤3.2,采用kernel_size=3,stride=1,进行卷积操作,卷积后的结果表示每个像素的位置偏移量offset(H
×
W
×
2M)。其中,M=3
×
3,通道数2M表示“横坐标”和“纵坐标”两个方向的偏移。输出的offset与输入特征图具有相同的空间分辨率;
[0020]步骤3.3,根据步骤3.2中得到的offset,计算新的M个点在特征图上的值。由于offset可能为小数,因此新的坐标也是小数,根据该坐标所围绕的4个像素的特征值,通过双线性插值计算特征值;
[0021]步骤3.4,对步骤3.3中得到的特征图通过卷积操作kernel_本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合卷积与ViT的图像方向识别方法,其特征在于,包括以下步骤:步骤1,将每幅图像分别按顺时针旋转四个角度0度、90度、180度和270度,每幅图像最终得到四个不同方向的图像;步骤2,输入一幅图像,采用多尺度Outlook Attentation模块,即MOAB,计算每个中心点与周围不同尺度邻域内的k
×
k个像素点的注意力,k表示当前位置对应的邻域尺度;所述MOAB能捕捉某个中心子图与其周围邻域子图的相对位置信息,具体步骤如下:步骤2.1,对大小为H
×
W
×
C的输入图像进行线性变换,得到维度为H
×
W
×
k4的特征图,其中,H表示特征图的高度,W表示特征图的宽度,C表示特征图的通道数;步骤2.2,将步骤2.1中得到的H
×
W
×
k4特征图的维度变换成注意力特征图,之后采用SoftMax得到注意力图AM;步骤2.3,采用“Linear+Unfold”操作将注意力图AM映射到一个新的特征空间V;步骤2.4,将注意力图AM与特征空间V进行矩阵相乘,之后通过“Fold”操作,将特征图还原到原始输入图像的大小;步骤2.5,采用不同的尺度k(3,5)分别执行步骤2.1~2.4,得到不同尺度的OA;分别记作OA_3和OA_5;步骤2.6,将OA_3、OA_5和输入特征进行线性相加,记作OA_Fusion=OA_3

OA_5

input feature;其中,

表示对应元素相加;步骤2.7,最后,对OA_Fusion使用层归一化LN和多层感知机MLP的残差连接,即OA_Fusion+LN&MLP(OA_Fusion),得到新的特征图;步骤2.8,将步骤2.7得到的特征图进行Patch Embedding,包括:一个卷积操作,层归一化Layer Norm和展平Flatten操作,最终,得到token序列(N
×
d),其中N表示序列的个数,d表示序列的维度;步骤3,将条件位置编码和可变性卷积进行结合,即把条件位置编码中的F函数替换为可变性卷积,记作DCPE,具体步骤如下:步骤3.1,将步骤2.8中得到的token序列作为输入,并把维度变换为二维图像空间中的H
×
W
×
C;步骤3.2,采用kernel_size=3,stride=1,进行卷积操作,卷积后的结果表示每个像素的位置偏移量offset(H
×
W
×
2M);其中,M=3
×
3,通道数2M表示“横坐标”和“纵坐标”两个方向的偏移,输出的offset与输入特征图具有相同的空间分辨率;步骤3.3,根据步骤3.2中得到的offset,计算新的M个点在特征图上的值;步骤3.4,对步骤3.3中得到的特征图通过卷积操作kernel_size=3,stride=1,得到新的特征图,维度是H
×
W
×
C;步骤3.5,最后再将特征图的维度进行变换,得到新的token序列,新的token序列的维度与步骤3.1中的token序列维度相同;步骤4,采用方向卷积方法,从不同的方向和尺度进行卷积融合,并将其作用于ViT中Tranformer Encoder Block模块的多头自注意力机制,记作DTEB;所述DTEB将浅层特征尺度压缩到最低分辨率,增加网络特征提取能力并保持高效的计算效率,具体步骤如下:步骤4.1,对步骤3.5中得到的token序列的维度变换为二维特征图(H
×
W
×
C);步骤4.2,所述特征图通过线性变换W
K
获得键值K,通过方向卷积压缩特征图的空间分辨
率,然后使用W
Q
和W
V
分别获得查询Q和值V,其中,W
Q
、W
K
和W
V
都使用1
×
1卷积;步骤4.3,采用多头注意力机制生成Q和K的注意力权重,并将其应用于V,即:其中,d
K
是指键值K的维度,QK
T
表示Q和K的点积;步骤5,构建一个融合卷积神经网络和ViT的框架,即方向金字塔ViT模型,即DPVT,DPVT分为Stage_i(i=1,2,3,4)四个阶段,每个阶段都使用MOAB、DCPE和DTEB的组合,每个阶段的输入是一个3D特征图,具体步骤如下:步骤5.1,在Stage_i阶段,特征图H
i
‑1×
W
i
‑1×
C
i
‑1使用3
×
3卷积对分辨率进行下采样并增加输出通道的数量;Stage_1的下采样率为4,Stage_2、Stage_3和Stage_4阶段的下采样率均为2;输出patch的大小为其中,P
i
表示Stage_i的下采样率,H
i
表示特征图的高度,W
i
表示特征图的宽度,C
i
表示特征图的通道数;步骤5....

【专利技术属性】
技术研发人员:白茹意
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1