一种基于小波散射网络和ViT的图像分类方法技术

技术编号：37172543 阅读：22 留言：0更新日期：2023-04-20 22:42

本发明专利技术提供了一种基于小波散射网络和ViT的图像分类方法。该方法包括：对图像数据进行预处理，获取带标签的预处理后的图像数据；构建基于小波散射网络和ViT的分类模型ScatViT，设定模型参数；设定训练参数，利用预处理后的图像数据训练分类模型ScatViT；利用训练好的分类模型ScatViT对待分类图像进行分类处理。本发明专利技术结合小波散射网络和ViT两个模型，提出了将图像切块操作改为使用小波散射网络提取图像特征的ScatViT模型，该模型改进了小波散射网络由于滤波器权重固定导致的无法从数据中学习的缺陷，修复了由于切块操作所丢失的部分信息，并排除了与图像分类无关信息的干扰，能更准确地表达图像的特征信息。能更准确地表达图像的特征信息。能更准确地表达图像的特征信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于小波散射网络和ViT的图像分类方法

[0001]本专利技术涉及计算机视觉领域的图像分类技术，是一种基于小波散射网络和ViT的图像分类方法。

技术介绍

[0002]图像分类是指根据图像所包含的信息对不同类别的图像进行区分，为每个图像分配预设范围内的类别标签，从而达到理解图像信息的目的。作为图像识别中最为基础的技术，图像分类在计算机视觉领域起着至关重要的作用。已有的图像分类方法包括卷积神经网络、小波散射网络以及基于Transformer的网络等。
[0003]卷积神经网络从人类视觉系统演变而来，是一类包含卷积计算的神经网络。1998年，Yann LeCun等在图像分类任务上首次使用卷积神经网络，提出LeNet，通过接连使用卷积和池化层的组合提取图像特征，采用了局部连接、权重共享、池化等操作，在手写数字识别任务上取得了巨大成功。但是该网络结构复杂度低且网络深度较浅，因而图像特征提取能力一般。2012年，Alex Krizhevsky等在大规模图片数据集ImageNet上应用卷积神经网络，提出AlexNet，获得了当年大规模视觉识别挑战赛的冠军，将错误率降低了10个百分点，引起图像领域的极大震撼。与LeNet相比，AlexNet具有更深的网络结构，计算量增大，具有更多的参数且可以有效避免过拟合现象。2014年，Simonyan和Zisserman提出了VGG网络结构，VGGNet采用小卷积核，层数更深、特征图更宽。VGGNet结构简单、性能优秀，其网络结构的独特设计，为构建深度神经网络提供了一般化方法。同年，...

【技术保护点】

【技术特征摘要】
1.一种基于小波散射网络和ViT的图像分类方法，其特征在于，包括：对图像数据进行预处理，获取带标签的预处理后的图像数据；构建基于小波散射网络和ViT的分类模型ScatViT，设定模型参数；设定训练参数，利用预处理后的图像数据训练分类模型ScatViT，得到训练好的分类模型ScatViT；利用训练好的分类模型ScatViT对待分类图像进行分类处理。2.根据权利要求1所述的方法，其特征在于，所述的对图像数据进行预处理，获取带标签的预处理后的图像数据，包括：对图像数据集进行划分，将图像数据集按19:1的比例均匀分为训练集和验证集，验证集中的每个类别的图片数量相同，将每一张图片按通道维度进行归一化处理，所述数据集包括cifar
‑
10数据集和cifar
‑
100数据集。3.根据权利要求1所述的方法，其特征在于，所述的构建基于小波散射网络和ViT的分类模型ScatViT，设定模型参数，包括：将ViT的Patch Embedding模块替换为小波散射网络ScatNet，使用小波散射网络提取图像特征，利用改进后的小波散射网络和ViT构建分类模型ScatViT，其由Scat Embedding、Encoder和MLP Head三部分组成，设定模型所涉及的参数包括：小波散射角度参数L＝6，尺度参数J＝2，最大路径长度M＝2，嵌入层维度大小D＝768，Encoder的深度S＝12，Multi
‑
Head Attention中的head数量H＝12。4.根据权利要求3所述的方法，其特征在于，所述的Scat Embedding通过小波散射网络将待分类的二维图像数据转化为特征图序列，通过线性映射将特征图序列投影到高维空间，添加一个分类标志向量，以用于最终输出概率分布，添加一个可学习的位置编码矩阵，以用于附加位置信息；Encoder由Multi
‑
Head Attention与MLP Block构成，每个子层内部均使用Residual Connection...

【专利技术属性】
技术研发人员：廉巧芳，白移梦，
申请(专利权)人：北京交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人