图像分类方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：42458232 阅读：19 留言：0更新日期：2024-08-21 12:47

本申请涉及计算机视觉领域，提供了图像分类方法、装置、电子设备及可读存储介质。该方法包括：将原始图片输入第一特征提取网络进行特征提取，得到低级语义；第一特征提取网络包括至少一个第一特征提取模块；将低级语义输入第二特征提取网络进行特征提取，得到高级语义；第二特征提取网络包括至少两个第二特征提取模块，且第二特征提取模块的数量大于第一特征提取模块的数量；基于高级语义确定原始图片的分类结果；第一、第二特征提取模块均包括依次相连的分层卷积层和改进Transformer网络；改进Transformer网络包括依次相连的输入层、最大池化层、自注意力层以及输出层。利用该方法不仅提高分类精度，且减少计算量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉，尤其涉及一种图像分类方法、装置、电子设备及可读存储介质。

技术介绍

1、图像分类问题是计算机视觉领域的基础问题，其目的是根据图像的语义信息将不同类别图像区分开来，实现最小的分类误差。在相关技术中，使用卷积神经网络(convolutional neural networks，cnn)来实现图像分类任务，其局部特征提取能力比较强。但是，由于卷积核感受野大小固定，难以捕捉图像的全局特征，对于长距离的上下文信息理解能力有限，导致在语义信息要求比较高的任务中，图像分类精确度较差。

2、在语义信息要求比较高的任务中，一般利用传统的transformer网络来实现图像分类任务，，其通过自注意力机制能够捕捉输入序列中不同位置之间的关联，对于图像中目标之间的全局依赖关系具有很大优势。但是传统的transformer网络缺乏局部归纳偏差且计算复杂度较高，导致模型推理速度慢。

3、可见，现有的图像分类方法仍存在无法平衡分类精确度和推理速度的问题。

技术实现思路

1、...

【技术保护点】

1.一种图像分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将原始图片输入第一特征提取网络进行特征提取，得到低级语义信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述分层卷积层包含多个堆叠的卷积层，且所述多个堆叠的卷积层的卷积核大小由浅层到深层依次递增；

4.根据权利要求2所述的方法，其特征在于，将所述最大池化结果和所述特征值输入自注意力层进行计算，得到低级语义信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述第二特征提取网络包括依次相连的第一卷积层、M个第二特征提取模块、第二卷积层和N个第二特征...

【技术特征摘要】

1.一种图像分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将原始图片输入第一特征提取网络进行特征提取，得到低级语义信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述分层卷积层包含多个堆叠的卷积层，且所述多个堆叠的卷积层的卷积核大小由浅层到深层依次递增；

4.根据权利要求2所述的方法，其特征在于，将所述最大池化结果和所述特征值输入自注意力层进行计算，得到低级语义信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述第二特征提取网络包括依次相连的第一卷积层、m个第二特征提取模块、第二卷积层和n个第二特征提取模块；其中，n大于m，且n≤12，m≥2；

6....

【专利技术属性】
技术研发人员：孙若愚，
申请(专利权)人：北京龙智数科科技服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人