基于多层感知机混合器的图像识别方法、装置、终端制造方法及图纸

技术编号：41228024 阅读：3 留言：0更新日期：2024-05-09 23:45

本发明专利技术公开了基于多层感知机混合器的图像识别方法、装置、终端，所述方法通过获取待识别图像；将所述待识别图像输入已训练的图像识别模型识别，得到所述待识别图像对应的识别结果，其中，所述图像识别模型包括若干混合层，所述混合层基于人工脑的稀疏编码和傅里叶映射实现。由于本发明专利技术在混合层中引入人工脑的稀疏编码和傅里叶映射，基于人工脑的稀疏编码思想，分别获取图像的全局以及局部信息，并通过傅里叶映射来保证图像表征的线性可分性，因此可以有效地解决现有技术中的多层感知机混合器未提供面向图像表征的线性转换技术，导致在具有挑战性的图像识别场景中表现不佳的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理领域，尤其涉及的是一种基于多层感知机混合器的图像识别方法、装置、终端。

技术介绍

1、在人工智能领域，卷积神经网络是传统的主流图像识别模型。标准的卷积神经网络包括多个卷积层和池化层。其中，卷积层是提取输入图像局部信息的关键组件。卷积层通过在输入图像上滑动卷积核(filter)，计算卷积核与输入图像的点积。这一操作的结果被称为特征图(feature map)。由于卷积核尺寸相对较小，研究者们引入了感受野(receptivefield)的概念。感受野是指卷积核在输入图像上的有效视野，即卷积核能够“看到”的图像区域的大小。由于卷积核只能关注输入图像的一个小块区域(感受野)，它只能对感受野内的图像局部信息进行建模，导致了卷积层在处理全局特征时存在局限性。为解决这一瓶颈问题，出现了基于注意力机制的视觉变形器(vision transformer,vit)和多层感知机混合器(multilayer perceptron mixer,mlp-mixer)。视觉变形器通过自注意力(self-attention)机制来对图像全局信息进行建模，从而克服了传统卷积神经网络的感受野限制。多层感知机混合器则摒弃了卷积和注意力机制，引入多层感知机来捕获全局信息。相对视觉变形器，多层感知机混合器在获得最先进的图像识别性能的同时，保持了简洁的模型结构，因而备受业界关注。

2、多层感知机混合器通过线性嵌入操作将图像块映射到一个隐空间，生成多个c维的特征向量。特征向量会被传输到混合层中。每个混合层包含两个阶段：图像块混合阶段和通道混

3、因此，现有技术还有待改进和发展。

技术实现思路

1、本专利技术要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于多层感知机混合器的图像识别方法、装置、终端，旨在解决现有技术中的多层感知机混合器未提供面向图像表征的线性转换技术，导致在具有挑战性的图像识别场景中表现不佳的问题。

2、本专利技术解决问题所采用的技术方案如下：

3、第一方面，本专利技术实施例提供一种基于多层感知机混合器的图像识别方法，其中，所述方法包括：

4、获取待识别图像；

5、将所述待识别图像输入已训练的图像识别模型识别，得到所述待识别图像对应的识别结果，其中，所述图像识别模型包括若干混合层，所述混合层基于人工脑的稀疏编码和傅里叶映射实现。

6、在一种实施方法中，所述图像识别模型还包括：线性嵌入层、若干下采样层以及线性图像识别器；

7、所述线性嵌入层与所述混合层连接，用于对分块后的待识别图像进行特征映射，并将特征映射后的数据输入所述混合层；

8、各所述下采样层与各所述混合层交替连接，所述下采样层用于对所述混合层的输出数据进行下采样，并将下采样后的数据输入下一所述混合层，其中，所述混合层的数量为n时，所述采样层的数量为n-1；

9、所述线性图像识别器与第n个所述混合层连接，用于对第n个所述混合层的输出数据识别，确定所述待识别图像对应的所述识别结果。

10、在一种实施方法中，所述图像识别模型还包括：

11、各所述混合层之间跳跃连接，用于将任一所述混合层之前的若干混合层的输出数据输入该混合层后连接的所述下采样层或者所述线性图像识别器。

12、在一种实施方法中，所述混合层包括：图像块混合模块、临近图像块编码模块以及傅里叶映射模块，所述混合层对数据的处理方法包括：

13、将所述混合层的输入数据沿通道分割为第一输入特征数据和第二输入特征数据；

14、将所述第一输入特征数据输入所述图像块混合模块，确定第一特征数据；

15、将所述第二输入特征数据输入所述临近图像块编码模块，确定第二特征数据；

16、将所述混合层的输入数据、所述第一特征数据以及所述第二特征数据输入所述傅里叶映射模块，确定所述混合层的输出数据。

17、在一种实施方法中，所述将所述第一输入特征数据输入所述图像块混合模块，确定第一特征数据，包括：

18、获取第一预设步长和第一预设卷积，其中第一预设卷积大小分别为i*j和j*i；

19、以第一预设步长，采用i*j第一预设卷积对所述第一特征数据进行水平方向的卷积操作，再采用j*i第一预设卷积对所述第一特征数据进行垂直方向的卷积操作，确定第一特征数据。

20、在一种实施方法中，所述将所述第二输入特征数据输入所述临近图像块编码模块，确定第二特征数据，包括：

21、获取第二预设步长和第二预设卷积，其中，第二预设卷积大小分别为m*n和n*m；

22、以第二预设步长，采用m*n第二预设卷积对所述第二输入特征数据进行卷积操作，确定第一输出特征；

23、以第二预设步长，采用n*m第二预设卷积对所述第二输入特征数据进行卷积操作，确定第二输出特征；

24、将所述第一输出特征和所述第二输出特征级联后降维，确定第二特征数据。

25、在一种实施方法中，所述将所述混合层的输入数据、所述第一特征数据以及所述第二特征数据输入所述傅里叶映射模块，确定所述混合层的输出数据，包括：

26、根据所述混合层的输入数据、所述第一特征数据以及所述第二特征数据，确定傅里叶映射模块输入数据；

27、分别对所述傅里叶映射模块输入数据进行正弦变化和余弦变化；

28、将正弦变化和余弦变化后的所述傅里叶映射模块输入数据进行串联，确定所述混合层的输出数据。

29、第二方面，本专利技术实施例还提供一种基于多层感知机混合器的图像识别装置，其中，所述基于多层感知机混合器的图像识别装置包括：

30、图像获取模块，用于获取待识别图像；

31、图像识别模块，用于将所述待识别图像输入已训练的图像识别模型识别，得到所述待识别图像对应的识别结果，其中，所述图像识别模型包括若干混合层，所述混合层基于人工脑的稀疏编码和傅里叶映射实现。

32、第三方面，本专利技术实施例还提供一种终端，其特征在于，所述终端包括有存储器和一个以上处理器；所述存储器存储有一个以上的本文档来自技高网...

【技术保护点】

1.一种基于多层感知机混合器的图像识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多层感知机混合器的图像识别方法，其特征在于，所述图像识别模型还包括：线性嵌入层、若干下采样层以及线性图像识别器；

3.根据权利要求2所述的基于多层感知机混合器的图像识别方法，其特征在于，所述图像识别模型还包括：

4.根据权利要求1所述的基于多层感知机混合器的图像识别方法，其特征在于，所述混合层包括：图像块混合模块、临近图像块编码模块以及傅里叶映射模块，所述混合层对数据的处理方法包括：

5.根据权利要求4所述的基于多层感知机混合器的图像识别方法，其特征在于，所述将所述第一输入特征数据输入所述图像块混合模块，确定第一特征数据，包括：

6.根据权利要求4所述的基于多层感知机混合器的图像识别方法，其特征在于，所述将所述第二输入特征数据输入所述临近图像块编码模块，确定第二特征数据，包括：

7.根据权利要求4所述的基于多层感知机混合器的图像识别方法，其特征在于，所述将所述混合层的输入数据、所述第一特征数据以及所述第二特征数

8.一种基于多层感知机混合器的图像识别装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，所述终端包括有存储器和一个以上处理器；所述存储器存储有一个以上的程序；所述程序包含用于执行如权利要求1-7中任一所述的基于多层感知机混合器的图像识别方法的指令；所述处理器用于执行所述程序。

10.一种计算机可读存储介质，其上存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行，以实现上述权利要求1-7任一所述的基于多层感知机混合器的图像识别方法的步骤。

...

【技术特征摘要】

1.一种基于多层感知机混合器的图像识别方法，其特征在于，所述方法包括：

3.根据权利要求2所述的基于多层感知机混合器的图像识别方法，其特征在于，所述图像识别模型还包括：

6.根据权利要求4所述的基于多层感知机混合器的图像识别方法，其特征在于，所述将所...

【专利技术属性】
技术研发人员：罗胜达，陈靖坤，张建国，
申请(专利权)人：南方科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人