一种基于随机多尺度分块的图像分类方法、装置及介质制造方法及图纸

技术编号：39414502 阅读：10 留言：0更新日期：2023-11-19 16:05

本发明专利技术公开了一种基于随机多尺度分块的图像分类方法、装置及介质，包括：根据随机数对图像进行可变大小的切割，得到不同大小的图像块并记录其在图像中的位置坐标以及图像块的大小信息，从而获取图像块在图像中的位置编码以及对每个图像块大小进行编码；从图像中提取不同大小的图像块并进行像素编码；将相同大小图像块的编码向量分别组合成序列；将不同大小的序列添加图像块大小编码后分别先后输入第一Transformer编码器模块和第二Transformer编码器模块获得全局特征，再进行层归一化之后进行线性变换，得到最终的图像预测类别。本发明专利技术具有多尺度特征提取能力和数据的多样性，提高图像分类的准确性和泛化能力，减轻过拟合问题，更好地学习到数据的统计特性。更好地学习到数据的统计特性。更好地学习到数据的统计特性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于随机多尺度分块的图像分类方法、装置及介质

[0001]本专利技术涉及图像处理和人工智能
，特别涉及一种基于随机多尺度分块的图像分类方法、装置及介质。

技术介绍

[0002]Transformer是一种基于自注意力机制的神经网络模型，最初被提出用于自然语言处理任务，如机器翻译和文本生成。然而，随后发现 Transformer 也适用于其他领域，包括图像处理，它的注意力机制能够捕捉到图像中的上下文信息，有助于解决图像分类等问题。
[0003]ViT
‑
Transformer架构是一种基于Transformer模型的图像分类方法，它将图像作为输入，并利用自注意力机制在图像特征提取和分类任务中取得了显著的成果。其中，图像分块编码技术在ViT
‑
Transformer架构中扮演了重要的角色。图像分块编码技术在传统的Transformer模型中，输入是文本序列。而在ViT
‑
Transformer架构中，为了处理图像数据，需要将图像分块编码为序列形式。这一过程主要包括将输入图像分成多个块，通常，这些块按照规则的网格划分；提取每个图像块的特征表示并转化为嵌入向量；为了保留图像中的位置信息，需要为每个图像块添加位置编码，这些位置编码可以是固定的、可学习的或通过其他方式生成。基于ViT
‑
Transformer架构的图像分块编码技术通过将图像分块并序列化，利用Transformer模型的全局上下文理解能力和高效的并行计算特性，在图像分类任务中...

【技术保护点】

【技术特征摘要】
1.一种基于随机多尺度分块的图像分类方法，其特征在于，包括以下步骤：（1）设置随机种子并生成随机数，根据生成的随机数对图像进行可变大小的切割，得到不同大小的图像块，并记录其在图像中的位置坐标以及图像块的大小信息；（2）根据图像块在图像中的位置坐标以及图像块的大小信息，获取图像块在图像中的位置编码以及对每个图像块大小进行编码；从图像中提取不同大小的图像块并进行像素编码；将相同大小图像块的编码向量分别组合成序列，得到不同大小的编码序列；（3）将不同大小的序列添加图像块大小编码后分别输入第一Transformer编码器模块，将输出的不同大小的特征编码通过插值操作调整到相同的特征维度，通过拼接并排序将它们组合成一个序列，再添加位置编码并进行层归一化后，再用第二Transformer编码器模块进行处理获得全局特征；（4）全局特征进行层归一化之后进行线性变换，得到最终的图像预测类别。2.根据权利要求1所述的一种基于随机多尺度分块的图像分类方法，其特征在于，所述步骤（1）包括以下子步骤：（1.1）获取图像，其中图像的大小为N
ꢀ×ꢀ
N，设定最小图像块的宽度n和高度n，计算按滑动窗口n
ꢀ×ꢀ
n进行切割切出图像块的总数量；用一个宽高均为N/n的二维张量seq_2d来表示切割顺序；用一个与seq_2d形状相同且元素值全为0的张量seq_2d_flag，用于表示图像块是否已经被选择，元素值为1表示已经被选择，为0表示还未被选择；（1.2）获取张量seq_2d_flag中所有非0元素的索引，设置随机种子并生成随机数，根据生成的随机数选择一个索引作为当前图像块的左上角位置，图像块大小为2n
ꢀ×ꢀ
2n，4n
ꢀ×ꢀ
4n，
…
，an
ꢀ×ꢀ
an中的一个，其中a不大于64，计算图像块右下角的位置，判断右下角的位置是否超出图像区域，并且判断从左上角到右下角形成的图像块是否全部未被选择，也就是seq_2d_flag中相应位置的值是否全部为0；若右下角的位置未超出图像区域并且图像块全部未被选择，则更新seq_2d_flag相应位置的值为1，并将图像块的位置和大小信息记录下来；否则重新执行步骤（1.2）；（1.3）重复步骤（1.2），直至从图像中切有P种不同大小的图像块，每种图像块数量分别为N1、N2、
……
N
p
，P种图像块的数量与大小的乘积之和等于图像大小。3.根据权利要求2所述的一种基于随机多尺度分块的图像分类方法，其特征在于，重复步骤（1.2）和步骤（1.3），获得M种随机分块方式。4.根据权利要求1所述的一种基于随机多尺度分块的图像分类方法，其特征在于，所述从图像中提取不同大小的图像块并进行像素编码具体为：根据步骤（1）中...

【专利技术属性】
技术研发人员：李少杰，吴元锋，陈耿，于丽娟，朱闻韬，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人