图像分类方法及装置制造方法及图纸

技术编号:25990582 阅读:29 留言:0更新日期:2020-10-20 18:58
本申请涉及人工智能领域中计算机视觉领域的图像识别技术,提供了一种图像分类方法及装置。涉及人工智能领域,具体涉及计算机视觉领域。该方法包括:获取待处理图像的输入特征图;根据神经网络的特征提取核,对所述输入特征图进行特征提取处理,得到输出特征图,其中,所述多个所述输出子特征图中的每一个是根据对应的一个所述输入子特征图与所述特征提取核确定的,至少一个所述输出子特征图是根据取绝对值后的目标矩阵确定得到的,所述目标矩阵与其对应的所述输入子特征图的差为所述特征提取核;基于所述输出特征图对所述待处理图像进行分类,得到所述待处理图像的分类结果。该方法能够减少卷积神经网络模型的运算开销。

【技术实现步骤摘要】
图像分类方法及装置
本申请涉及人工智能领域,并且更具体地,涉及一种图像分类方法及装置。
技术介绍
计算机视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分,它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的,被拍摄对象的数据与信息的学问。形象地说,就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等,从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。总的来说,计算机视觉就是用各种成象系统代替视觉器官获取输入信息,再由计算机来代替大脑对这些输入信息完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界,具有自主适应环境的能力。图像(或图片)的分类是各类图像处理应用的基础,计算机视觉常常会涉及到如何对获取到的图像进行分类的问题。随着人工智能技术的快速发展,基于深度学习的卷积神经网络(convolutionalneuralnetworks,CNN)在图像分类处理中得到了越来越广泛的应用。但是,卷积神经网络所包含的参数量和计算量都很大,而终端设备的计算资源非常有限,并不具备有较强的运算能力,导致卷积神经网络在终端设备上难以进行部署。因此,如何降低神经网络的运算开销成为一个亟需解决的问题。
技术实现思路
本申请提供一种图像分类的方法及装置,能够减少进行图像分类所使用的卷积神经网络模型的运算开销。第一方面,提供了一种图像分类方法,该方法包括:获取待处理图像的输入特征图,其中,所述输入特征图包括多个所述输入子特征图;根据神经网络的特征提取核,对所述输入特征图进行特征提取处理,得到输出特征图,其中,所述输出特征图包括多个所述输出子特征图,所述多个所述输出子特征图中的每一个是根据对应的一个所述输入子特征图与所述特征提取核确定的,至少一个所述输出子特征图是根据取绝对值后的目标矩阵确定得到的,所述目标矩阵与其对应的所述输入子特征图的差为所述特征提取核;基于所述输出特征图对所述待处理图像进行分类,得到所述待处理图像的分类结果。在本申请中,至少一个所述输出子特征图是根据取绝对值后的目标矩阵确定得到的,所述目标矩阵与其对应的所述输入子特征图的差为所述特征提取核,也就是说,所述目标矩阵是由所述至少一个输入子特征图与所述特征提取核进行矩阵加法或矩阵减法得到的,而加法操作或减法操作在计算机中的运算开销是小于乘法操作的,因此,能够减少进行图像分类所使用的卷积神经网络模型的运算开销。结合第一方面,在第一方面的某些实现方式中,所述目标矩阵是由所述至少一个输入子特征图与所述特征提取核进行矩阵加法或矩阵减法得到的。结合第一方面,在第一方面的某些实现方式中,所述至少一个输出子特征图是由如下公式得到的:或其中,|(·)|为取绝对值运算,∑(·)为求和运算,Y(m,n,t)为所述至少一个输出子特征图,Y(m,n,t)为所述输出特征图中第m行、第n列及第t页的元素,X(m+i,n+j,k)为所述至少一个输入子特征图中的第i行、第j列及第k页的元素,F(i,j,k,t)为所述特征提取核中的第i行、第j列及第k页的元素,t为所述特征提取核的通道数,d为所述特征提取核的行数,C为所述输入特征图的通道数,d、C、i、j、k、m、n、t均为整数。结合第一方面,在第一方面的某些实现方式中,所述特征提取核的梯度是根据所述目标矩阵确定得到的,所述输入子特征图的梯度是根据所述目标矩阵确定得到的。结合第一方面,在第一方面的某些实现方式中,在T(m,n,i,j,k,t)的取值在预设的取值范围内的情况下,F(i,j,k,t)的梯度由T(m,n,i,j,k,t)的取值确定,X(m+i,n+j,k)的梯度由T(m,n,i,j,k,t)的取值确定;其中,T(m,n,i,j,k,t)=X(m+i,n+j,k)±F(i,j,k,t),F(i,j,k,t)为所述特征提取核中的第i行、第j列及第k页的元素,X(m+i,n+j,k)为所述至少一个输入子特征图中的第i行、第j列及第k页的元素,i、j、k、m、n、t均为整数。在本申请中,根据T(m,n,i,j,k,t)的取值确定F(i,j,k,t)的梯度及X(m+i,n+j,k)的梯度,可以扩展F(i,j,k,t)的梯度和X(m+i,n+j,k)的梯度可能取到的值的范围,使F(i,j,k,t)的梯度的取值和X(m+i,n+j,k)的梯度的取值更加多样化,有利于神经网络模型参数的优化,从而能够提高卷积神经网络模块进行图像分类的准确率。可选地,所述目标矩阵中的各个元素取绝对值后再求和得到的输出子特征图为所述输出特征图中第m行、第n列及第t页的元素。结合第一方面,在第一方面的某些实现方式中,所述F(i,j,k,t)的梯度是由如下公式得到的:所述X(m+i,n+j,k)的梯度是由如下公式得到的:其中,为F(i,j,k,t)的梯度,为X(m+i,n+j,k)的梯度。第二方面,提供了一种图像分类装置,包括:获取单元,用于获取待处理图像的输入特征图,其中,所述输入特征图包括多个所述输入子特征图;特征提取单元,用于根据神经网络的特征提取核,对所述输入特征图进行特征提取处理,得到输出特征图,其中,所述输出特征图包括多个所述输出子特征图,所述多个所述输出子特征图中的每一个是根据对应的一个所述输入子特征图与所述特征提取核确定的,至少一个所述输出子特征图是根据取绝对值后的目标矩阵确定得到的,所述目标矩阵与其对应的所述输入子特征图的差为所述特征提取核;分类单元,用于基于所述输出特征图对所述待处理图像进行分类,得到所述待处理图像的分类结果。在本申请中,至少一个所述输出子特征图是根据取绝对值后的目标矩阵确定得到的,所述目标矩阵与其对应的所述输入子特征图的差为所述特征提取核,也就是说,所述目标矩阵是由所述至少一个输入子特征图与所述特征提取核进行矩阵加法或矩阵减法得到的,而加法操作或减法操作在计算机中的运算开销是小于乘法操作的,因此,能够减少进行图像分类所使用的卷积神经网络模型的运算开销。结合第二方面,在第二方面的某些实现方式中,所述目标矩阵是由所述至少一个输入子特征图与所述特征提取核进行矩阵加法或矩阵减法得到的。结合第二方面,在第二方面的某些实现方式中,所述至少一个输出子特征图是由如下公式得到的:或其中,|(·)|为取绝对值运算,∑(·)为求和运算,Y(m,n,t)为所述至少一个输出子特征图,Y(m,n,t)为所述输出特征图中第m行、第n列及第t页的元素,X(m+i,n+j,k)为所述至少一个输入子特征图中的第i行、第j列及第k页的元素,F(i,j,k,t)为所述特征提取核中的第i行、第j列及第k页的元素,t为所述特征提取核的通道数,d为所述特征提取核的行数本文档来自技高网...

【技术保护点】
1.一种图像分类方法,其特征在于,包括:/n获取待处理图像的输入特征图,其中,所述输入特征图包括多个所述输入子特征图;/n根据神经网络的特征提取核,对所述输入特征图进行特征提取处理,得到输出特征图,其中,所述输出特征图包括多个所述输出子特征图,所述多个所述输出子特征图中的每一个是根据对应的一个所述输入子特征图与所述特征提取核确定的,至少一个所述输出子特征图是根据取绝对值后的目标矩阵确定得到的,所述目标矩阵与其对应的所述输入子特征图的差为所述特征提取核;/n基于所述输出特征图对所述待处理图像进行分类,得到所述待处理图像的分类结果。/n

【技术特征摘要】
1.一种图像分类方法,其特征在于,包括:
获取待处理图像的输入特征图,其中,所述输入特征图包括多个所述输入子特征图;
根据神经网络的特征提取核,对所述输入特征图进行特征提取处理,得到输出特征图,其中,所述输出特征图包括多个所述输出子特征图,所述多个所述输出子特征图中的每一个是根据对应的一个所述输入子特征图与所述特征提取核确定的,至少一个所述输出子特征图是根据取绝对值后的目标矩阵确定得到的,所述目标矩阵与其对应的所述输入子特征图的差为所述特征提取核;
基于所述输出特征图对所述待处理图像进行分类,得到所述待处理图像的分类结果。


2.根据权利要求1所述的方法,其特征在于,所述目标矩阵是由所述至少一个输入子特征图与所述特征提取核进行矩阵加法或矩阵减法得到的。


3.根据权利要求2所述的方法,其特征在于,所述至少一个输出子特征图是由如下公式得到的:







其中,|(·)|为取绝对值运算,∑(·)为求和运算,Y(m,n,t)为所述至少一个输出子特征图,Y(m,n,t)为所述输出特征图中第m行、第n列及第t页的元素,X(m+i,n+j,k)为所述至少一个输入子特征图中的第i行、第j列及第k页的元素,F(i,j,k,t)为所述特征提取核中的第i行、第j列及第k页的元素,t为所述特征提取核的通道数,d为所述特征提取核的行数,C为所述输入特征图的通道数,d、C、i、j、k、m、n、t均为整数。


4.根据权利要求1至3中任一项所述的方法,其特征在于,所述特征提取核的梯度是根据所述目标矩阵确定得到的,所述输入子特征图的梯度是根据所述目标矩阵确定得到的。


5.根据权利要求4所述的方法,其特征在于,在T(m,n,i,j,k,t)的取值在预设的取值范围内的情况下,F(i,j,k,t)的梯度由T(m,n,i,j,k,t)的取值确定,X(m+i,n+j,k)的梯度由T(m,n,i,j,k,t)的取值确定;
其中,T(m,n,i,j,k,t)=X(m+i,n+j,k)±F(i,j,k,t),F(i,j,k,t)为所述特征提取核中的第i行、第j列及第k页的元素,X(m+i,n+j,k)为所述至少一个输入子特征图中的第i行、第j列及第k页的元素,i、j、k、m、n、t均为整数。


6.根据权利要求5所述的方法,其特征在于,所述F(i,j,k,t)的梯度是由如下公式得到的:



所述X(m+i,n+j,k)的梯度是由如下公式得到的:



其中,为F(i,j,k,t)的梯度,为X(m+i,n+j,k)的梯度。


7.一种图像分类装置,其特征在于,包括:
获取单元,用于获取待处理图像的输入特征图,其中,所述输入特征图包括多个所述输入子特征图;
特征提取单元,用于根据神经网络的特征提取核,对所述输入特征图进行特征提取处理,得到输出特征图,其中,所述输出特征图包括多个所述输出子特...

【专利技术属性】
技术研发人员:陈汉亭王云鹤许春景
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1