一种基于小波散射网络和ViT的图像分类方法技术

技术编号:37172543 阅读:22 留言:0更新日期:2023-04-20 22:42
本发明专利技术提供了一种基于小波散射网络和ViT的图像分类方法。该方法包括:对图像数据进行预处理,获取带标签的预处理后的图像数据;构建基于小波散射网络和ViT的分类模型ScatViT,设定模型参数;设定训练参数,利用预处理后的图像数据训练分类模型ScatViT;利用训练好的分类模型ScatViT对待分类图像进行分类处理。本发明专利技术结合小波散射网络和ViT两个模型,提出了将图像切块操作改为使用小波散射网络提取图像特征的ScatViT模型,该模型改进了小波散射网络由于滤波器权重固定导致的无法从数据中学习的缺陷,修复了由于切块操作所丢失的部分信息,并排除了与图像分类无关信息的干扰,能更准确地表达图像的特征信息。能更准确地表达图像的特征信息。能更准确地表达图像的特征信息。

【技术实现步骤摘要】
一种基于小波散射网络和ViT的图像分类方法


[0001]本专利技术涉及计算机视觉领域的图像分类技术,是一种基于小波散射网络和ViT的图像分类方法。

技术介绍

[0002]图像分类是指根据图像所包含的信息对不同类别的图像进行区分,为每个图像分配预设范围内的类别标签,从而达到理解图像信息的目的。作为图像识别中最为基础的技术,图像分类在计算机视觉领域起着至关重要的作用。已有的图像分类方法包括卷积神经网络、小波散射网络以及基于Transformer的网络等。
[0003]卷积神经网络从人类视觉系统演变而来,是一类包含卷积计算的神经网络。1998年,Yann LeCun等在图像分类任务上首次使用卷积神经网络,提出LeNet,通过接连使用卷积和池化层的组合提取图像特征,采用了局部连接、权重共享、池化等操作,在手写数字识别任务上取得了巨大成功。但是该网络结构复杂度低且网络深度较浅,因而图像特征提取能力一般。2012年,Alex Krizhevsky等在大规模图片数据集ImageNet上应用卷积神经网络,提出AlexNet,获得了当年大规模视觉识别挑战赛的冠军,将错误率降低了10个百分点,引起图像领域的极大震撼。与LeNet相比,AlexNet具有更深的网络结构,计算量增大,具有更多的参数且可以有效避免过拟合现象。2014年,Simonyan和Zisserman提出了VGG网络结构,VGGNet采用小卷积核,层数更深、特征图更宽。VGGNet结构简单、性能优秀,其网络结构的独特设计,为构建深度神经网络提供了一般化方法。同年,Christian Szegedy等提出了GoogLeNet,并取得了当年大规模视觉识别挑战赛的冠军。相比于卷积神经网络中单纯的“卷积+池化+全连接”的操作技术,GoogLeNet引入Inception结构,并用全局平均池化替换了原始结构中的全连接层。2015年,Kaiming He和Jian Sun等提出了ResNet来解决深度神经网络的退化问题,其核心思想是使用Residual Connection和残差块,在大规模数据集ImagNet上将错误率降低至3.57%,超过了人眼识别的能力,后续深度神经网络的设计也在不断借鉴Residual Connection的操作。近年来深度学习在计算机视觉领域中的图像分类、检测等任务上不断获得成功,很大程度上是因为卷积神经网络的不断进步。但是,卷积操作缺乏对图像数据的全局理解,受到局部相互作用的限制,无法充分利用图像数据的全局信息。此外,卷积神经网络在训练过程中对数据需求量大,网络参数多,同时存在梯度消失、梯度爆炸、网络退化、可解释性差等问题。
[0004]小波散射网络是一种基于小波变换的非反馈式神经网络,该网络作为特征提取器具有如非扩张性、微小形变稳定性、平移不变性的良好性质,经过了严格的数学推导和理论证明。然而,在实际应用中,图像往往还要包含诸如遮挡、杂乱背景等更加复杂的变化。在这些情况中,仅仅使用小波散射网络是无法捕捉到有效特征表达的。小波散射网络是非反馈式结构,采用预先定义的权重固定的滤波器,权重固定的滤波器无需通过学习得到,能够降低计算复杂度,是小波散射网络的一大优点。但事实上,权重固定的滤波器意味着小波散射网络只能捕捉到如平移、旋转等刚性变换,而对更复杂的变化无能为力。
[0005]Transformer是一种完全基于自注意力机制、能够并行化处理数据的深度神经网络。由于其对于大规模数据表现出来的巨大潜力,该模型一直受到研究者们的关注。相比卷积神经网络,Transformer的自注意力机制利用全局信息,能挖掘长距离的依赖关系,根据不同的任务目标学习最合适的归纳偏置。近年来,基于Transformer的模型不断涌现,给计算机视觉领域注入了新的活力,引领了新的变革。诞生于自然语言处理领域的Transformer应用于计算机视觉领域的主要困难在于图像数据转化为序列数据所带来的爆炸式的计算量增长。事实上,如果直接将大小为224
×
224的图像按像素点转化为序列数据,将会得到长度50176的序列数据。
[0006]ViT通过对图像做切块展平处理来解决伴随数据转化而来的计算量陡增问题,是最早将Transformer应用于图像分类任务的模型,其结构不依赖卷积神经网络,在许多大规模数据集上面实现了非常好的分类效果,但缺陷也十分明显,主要表现在:将原本应用于自然语言处理领域的Transformer引入计算机视觉领域,自然需要将图像数据转换成序列数据,而这种先切块后展平的转换必然伴随着图片内部结构的破坏,从而导致分类性能的下降。
[0007]现有的图像分类方法包括小波散射网络和ViT方案。技术方案如下:设小波函数为ψ,那么对其进行2
j
的尺度缩放与r的旋转,可得到小波如下:
[0008]ψ
λ
(u)=2

2j
ψ(2

j
r
‑1u)
[0009]其中ψ
λ
(u)是经过特定的尺度缩放和旋转后得到的小波函数,j和r分别是尺度参数和角度参数,j∈Z确定尺度,r∈G确定方向,G是平面旋转群,λ=2

j
r∈2

Z
×
G=Λ。对于图像x(u)和有序路径p=(λ1,λ2,...,λ
m
),其对应的小波散射变换为:
[0010][0011]其中,S
I
[p]是沿特定路径小波散射变换算子,它将图像沿路径p的变换得到图像特征,下标J代表最大尺度,即尺度参数j的最大值。φ是低通滤波器,,
*
是卷积操作,
[0012][0013]将长度为m的有序路径p组成的集合记为所有长度的路径组成的集合记为即:
[0014]且|λ1|>|λ2|>

>|λ
m
|}
[0015][0016]有序路径p的形式为((λ1,λ2,...,λ
m
)|,这些λ
i
∈Λ
l
且它们的范数满足递减关系。将m从1开始遍历,可以得到不同长度的路径,这些路径的并集形成
[0017]遍历所有可能的路径然后拼接即可得到最终的输出结果,记为X:
[0018][0019]是将图像映射成最终结果的算子,由遍历所有长度得到,也即由S
I
[p]遍历所有可能的路径得到。
[0020]当选择适当的小波函数时,算子满足局部平移不变性、非扩张性、微小形变稳定性,这些性质可表述如下:
[0021]定义1:Γ是平移不变算子,若Γ满足对任意x(u)∈L2(R2),任意c∈R2:
[0022]Γ(x(u

c))=Γ(x(u))
[0023]定义2:Γ是非扩张算子,若Γ满足对任意x(u)、y(u)∈L2(R2),存在C>0:
[0024]||Γ(x(u))

Γ(y(u本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小波散射网络和ViT的图像分类方法,其特征在于,包括:对图像数据进行预处理,获取带标签的预处理后的图像数据;构建基于小波散射网络和ViT的分类模型ScatViT,设定模型参数;设定训练参数,利用预处理后的图像数据训练分类模型ScatViT,得到训练好的分类模型ScatViT;利用训练好的分类模型ScatViT对待分类图像进行分类处理。2.根据权利要求1所述的方法,其特征在于,所述的对图像数据进行预处理,获取带标签的预处理后的图像数据,包括:对图像数据集进行划分,将图像数据集按19:1的比例均匀分为训练集和验证集,验证集中的每个类别的图片数量相同,将每一张图片按通道维度进行归一化处理,所述数据集包括cifar

10数据集和cifar

100数据集。3.根据权利要求1所述的方法,其特征在于,所述的构建基于小波散射网络和ViT的分类模型ScatViT,设定模型参数,包括:将ViT的Patch Embedding模块替换为小波散射网络ScatNet,使用小波散射网络提取图像特征,利用改进后的小波散射网络和ViT构建分类模型ScatViT,其由Scat Embedding、Encoder和MLP Head三部分组成,设定模型所涉及的参数包括:小波散射角度参数L=6,尺度参数J=2,最大路径长度M=2,嵌入层维度大小D=768,Encoder的深度S=12,Multi

Head Attention中的head数量H=12。4.根据权利要求3所述的方法,其特征在于,所述的Scat Embedding通过小波散射网络将待分类的二维图像数据转化为特征图序列,通过线性映射将特征图序列投影到高维空间,添加一个分类标志向量,以用于最终输出概率分布,添加一个可学习的位置编码矩阵,以用于附加位置信息;Encoder由Multi

Head Attention与MLP Block构成,每个子层内部均使用Residual Connection...

【专利技术属性】
技术研发人员:廉巧芳白移梦
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1