当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于随机多尺度分块的图像分类方法、装置及介质制造方法及图纸

技术编号:39414502 阅读:10 留言:0更新日期:2023-11-19 16:05
本发明专利技术公开了一种基于随机多尺度分块的图像分类方法、装置及介质,包括:根据随机数对图像进行可变大小的切割,得到不同大小的图像块并记录其在图像中的位置坐标以及图像块的大小信息,从而获取图像块在图像中的位置编码以及对每个图像块大小进行编码;从图像中提取不同大小的图像块并进行像素编码;将相同大小图像块的编码向量分别组合成序列;将不同大小的序列添加图像块大小编码后分别先后输入第一Transformer编码器模块和第二Transformer编码器模块获得全局特征,再进行层归一化之后进行线性变换,得到最终的图像预测类别。本发明专利技术具有多尺度特征提取能力和数据的多样性,提高图像分类的准确性和泛化能力,减轻过拟合问题,更好地学习到数据的统计特性。更好地学习到数据的统计特性。更好地学习到数据的统计特性。

【技术实现步骤摘要】
一种基于随机多尺度分块的图像分类方法、装置及介质


[0001]本专利技术涉及图像处理和人工智能
,特别涉及一种基于随机多尺度分块的图像分类方法、装置及介质。

技术介绍

[0002]Transformer是一种基于自注意力机制的神经网络模型,最初被提出用于自然语言处理任务,如机器翻译和文本生成。然而,随后发现 Transformer 也适用于其他领域,包括图像处理,它的注意力机制能够捕捉到图像中的上下文信息,有助于解决图像分类等问题。
[0003]ViT

Transformer架构是一种基于Transformer模型的图像分类方法,它将图像作为输入,并利用自注意力机制在图像特征提取和分类任务中取得了显著的成果。其中,图像分块编码技术在ViT

Transformer架构中扮演了重要的角色。图像分块编码技术在传统的Transformer模型中,输入是文本序列。而在ViT

Transformer架构中,为了处理图像数据,需要将图像分块编码为序列形式。这一过程主要包括将输入图像分成多个块,通常,这些块按照规则的网格划分;提取每个图像块的特征表示并转化为嵌入向量;为了保留图像中的位置信息,需要为每个图像块添加位置编码,这些位置编码可以是固定的、可学习的或通过其他方式生成。基于ViT

Transformer架构的图像分块编码技术通过将图像分块并序列化,利用Transformer模型的全局上下文理解能力和高效的并行计算特性,在图像分类任务中取得了卓越的表现。该技术的应用为图像处理领域带来了新的机遇,值得进一步深入研究和探索。
[0004]固定大小图像分块在Transformer模型中存在一些缺点。在固定图像块大小的情况下,较大的物体或细节可能被拆分成多个图像块进行处理,导致某些关键信息丢失。在实际图像中,物体的尺寸和比例可能会有很大的变化。固定大小不能很好地适应这种变化,可能导致对不同尺寸物体的表示不准确。使用随机多尺度图像分块可以更好地适应不同尺寸的物体和图像。这样可以保留更多的细节信息,并减少信息损失,还能引入更多的多样性,从而让模型见识到不同尺度的物体和图像。这有助于提高模型对不同尺度物体的泛化能力。使用随机多尺度图像分块可以增加数据的多样性,有助于减轻过拟合问题,模型可以更好地学习到数据的统计特性。

技术实现思路

[0005]鉴于现有技术的不足,本专利技术的目的在于提供一种基于随机多尺度分块的图像分类方法、装置及介质,用于增强模型的适应性和泛化能力,以更好地提高图像分类任务的性能。
[0006]本专利技术的目的是通过以下技术方案来实现的:一种基于随机多尺度分块的图像分类方法,包括以下步骤:(1)设置随机种子并生成随机数,根据生成的随机数对图像进行可变大小的切割,
得到不同大小的图像块,并记录其在图像中的位置坐标以及图像块的大小信息;(2)根据图像块在图像中的位置坐标以及图像块的大小信息,获取图像块在图像中的位置编码以及对每个图像块大小进行编码;从图像中提取不同大小的图像块并进行像素编码;将相同大小图像块的编码向量分别组合成序列,得到不同大小的编码序列;(3)将不同大小的序列添加图像块大小编码后分别输入第一Transformer编码器模块,将输出的不同大小的特征编码通过插值操作调整到相同的特征维度,通过拼接并排序将它们组合成一个序列,再添加位置编码并进行层归一化后,再用第二Transformer编码器模块进行处理获得全局特征;(4)全局特征进行层归一化之后进行线性变换,得到最终的图像预测类别。
[0007]进一步地,所述步骤(1)包括以下子步骤:(1.1)获取图像,其中图像的大小为N
ꢀ×ꢀ
N,设定最小图像块的宽度n和高度n,计算按滑动窗口n
ꢀ×
n进行切割切出图像块的总数量;用一个宽高均为N/n的二维张量seq_2d来表示切割顺序;用一个与seq_2d形状相同且元素值全为0的张量seq_2d_flag,用于表示图像块是否已经被选择,元素值为1表示已经被选择,为0表示还未被选择;(1.2)获取张量seq_2d_flag中所有非0元素的索引,设置随机种子并生成随机数,根据生成的随机数选择一个索引作为当前图像块的左上角位置,图像块大小为2n
ꢀ×ꢀ
2n,4n
ꢀ×ꢀ
4n,

,an
ꢀ×
an中的一个,其中a不大于64,计算图像块右下角的位置,判断右下角的位置是否超出图像区域,并且判断从左上角到右下角形成的图像块是否全部未被选择,也就是seq_2d_flag中相应位置的值是否全部为0;若右下角的位置未超出图像区域并且图像块全部未被选择,则更新seq_2d_flag相应位置的值为1,并将图像块的位置和大小信息记录下来;否则重新执行步骤(1.2);(1.3)重复步骤(1.2),直至从图像中切有P种不同大小的图像块,每种图像块数量分别为N1、N2、
……
N
p
,P种图像块的数量与大小的乘积之和等于图像大小。
[0008]进一步地,重复步骤(1.2)和步骤(1.3),获得M种随机分块方式。
[0009]进一步地,所述从图像中提取不同大小的图像块并进行像素编码具体为:根据步骤(1)中得到不同大小的图像块及其位置坐标和大小信息,从图像中逐个提取图像块,将图像块的所有像素展平成一维向量;将每个图像块对应的向量通过线性变换映射到指定维度大小的向量,对每个图像块进行编码表示;将相同大小图像块的编码向量分别组合成序列,得到不同大小的图像块编码序列。
[0010]进一步地,所述获取图像块在图像中的位置编码具体为:根据每个图像块的位置坐标,计算图像块在图像中对应的行列坐标信息,调整位置嵌入的范围并使用sin和cos函数生成嵌入部分,再将它们拼接在一起,得到图像块的位置编码。
[0011]进一步地,所述对每个图像块大小进行编码具体为:根据每个图像块的大小信息,调整图像块大小嵌入的范围并使用sin和cos函数生成嵌入部分,再将它们拼接在一起,得到图像块大小编码。
[0012]进一步地,所述将图像块的所有像素展平成一维向量具体为:所述图像有RGB三个通道,an
ꢀ×
an的图像块展平得到维度为1
×
3(an)2的向量;所述将每个图像块对应的向量通过线性变换映射到指定维度大小的向量具体为:
将维度为1
ꢀ×ꢀ
3(an)2的向量映射到256
×
a。
[0013]一种基于随机多尺度分块的图像分类装置,包括:随机多尺度分块模块,用于设置随机种子并生成随机数,根据生成的随机数对图像进行可变大小的切割,得到不同大小的图像块,并记录其在图像中的位置坐标以及图像块的大小信息;编码模块,用于根据图像块在图像中的位置坐标以及图像块的大小信息,获取图像块在图像中的位置编码以及对每个图像块大小进行编码;从图像中提取不同大小的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机多尺度分块的图像分类方法,其特征在于,包括以下步骤:(1)设置随机种子并生成随机数,根据生成的随机数对图像进行可变大小的切割,得到不同大小的图像块,并记录其在图像中的位置坐标以及图像块的大小信息;(2)根据图像块在图像中的位置坐标以及图像块的大小信息,获取图像块在图像中的位置编码以及对每个图像块大小进行编码;从图像中提取不同大小的图像块并进行像素编码;将相同大小图像块的编码向量分别组合成序列,得到不同大小的编码序列;(3)将不同大小的序列添加图像块大小编码后分别输入第一Transformer编码器模块,将输出的不同大小的特征编码通过插值操作调整到相同的特征维度,通过拼接并排序将它们组合成一个序列,再添加位置编码并进行层归一化后,再用第二Transformer编码器模块进行处理获得全局特征;(4)全局特征进行层归一化之后进行线性变换,得到最终的图像预测类别。2.根据权利要求1所述的一种基于随机多尺度分块的图像分类方法,其特征在于,所述步骤(1)包括以下子步骤:(1.1)获取图像,其中图像的大小为N
ꢀ×ꢀ
N,设定最小图像块的宽度n和高度n,计算按滑动窗口n
ꢀ×ꢀ
n进行切割切出图像块的总数量;用一个宽高均为N/n的二维张量seq_2d来表示切割顺序;用一个与seq_2d形状相同且元素值全为0的张量seq_2d_flag,用于表示图像块是否已经被选择,元素值为1表示已经被选择,为0表示还未被选择;(1.2)获取张量seq_2d_flag中所有非0元素的索引,设置随机种子并生成随机数,根据生成的随机数选择一个索引作为当前图像块的左上角位置,图像块大小为2n
ꢀ×ꢀ
2n,4n
ꢀ×ꢀ
4n,

,an
ꢀ×ꢀ
an中的一个,其中a不大于64,计算图像块右下角的位置,判断右下角的位置是否超出图像区域,并且判断从左上角到右下角形成的图像块是否全部未被选择,也就是seq_2d_flag中相应位置的值是否全部为0;若右下角的位置未超出图像区域并且图像块全部未被选择,则更新seq_2d_flag相应位置的值为1,并将图像块的位置和大小信息记录下来;否则重新执行步骤(1.2);(1.3)重复步骤(1.2),直至从图像中切有P种不同大小的图像块,每种图像块数量分别为N1、N2、
……
N
p
,P种图像块的数量与大小的乘积之和等于图像大小。3.根据权利要求2所述的一种基于随机多尺度分块的图像分类方法,其特征在于,重复步骤(1.2)和步骤(1.3),获得M种随机分块方式。4.根据权利要求1所述的一种基于随机多尺度分块的图像分类方法,其特征在于,所述从图像中提取不同大小的图像块并进行像素编码具体为:根据步骤(1)中...

【专利技术属性】
技术研发人员:李少杰吴元锋陈耿于丽娟朱闻韬
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1