图像识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:38814194 阅读:15 留言:0更新日期:2023-09-15 19:53
本发明专利技术提供一种图像识别方法、装置、电子设备和存储介质,涉及图像识别技术领域,该方法包括:获取待识别图像;将待识别图像输入改进的Transformer网络,得到改进的Transformer网络输出的图像识别结果;改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于至少三个重组特征图进行自注意力计算;其中,每个重组特征图内都划分多个小组,自注意力计算在每个小组内进行。从而可以显著降低网络的计算量,提高图像识别的效率,降低图像识别的显存占用。降低图像识别的显存占用。降低图像识别的显存占用。

【技术实现步骤摘要】
图像识别方法、装置、电子设备和存储介质


[0001]本专利技术涉及图像识别
,尤其涉及一种图像识别方法、装置、电子设备和存储介质。

技术介绍

[0002]图像识别旨在识别图像中所包含物体的类别。其难点在于如何设计高效的神经网络,在降低计算量的同时,获得更好的分类效果。
[0003]由于Transformer网络结构具有全局视野的优势,逐渐成为了图像识别领域的主流网络结构。但是,现有的Transformer网络包含大量自注意力操作,存在计算量大、速度慢、显存占用高等问题。

技术实现思路

[0004]针对现有技术存在的问题,本专利技术提供一种图像识别方法、装置、电子设备和存储介质。
[0005]第一方面,本专利技术提供一种图像识别方法,包括:
[0006]获取待识别图像;
[0007]将所述待识别图像输入改进的Transformer网络,得到所述改进的Transformer网络输出的图像识别结果;
[0008]所述改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;
[0009]所述改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于所述至少三个重组特征图进行自注意力计算;其中,每个所述重组特征图内都划分多个小组,自注意力计算在每个所述小组内进行。
[0010]可选地,所述改进的Transformer网络包括空间重组模块、自注意力模块和分类模块;
[0011]所述空间重组模块用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图;
[0012]所述自注意力模块包括多个串联的Transformer层,每个所述Transformer层用于对一个所述重组特征图进行自注意力计算;
[0013]所述分类模块用于基于最后一个所述Transformer层输出的特征图,输出图像识别结果。
[0014]可选地,所述对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,包括:
[0015]对所述原始特征图进行空间重组,得到第一特征图和第二特征图,所述第一特征图内划分多个组分辨率为K*K的小组,所述第二特征图内划分多个组分辨率为S*S的小组;其中,所述K为大于或等于2的整数,所述S等于所述原始特征图的宽或高与所述K的比值;
[0016]在所述第二特征图的每个小组内进行空间重组,得到第三特征图和第四特征图,所述第三特征图内划分多个组分辨率为L*L的小组,所述第四特征图内划分多个组分辨率为T*T的小组;其中,所述L为大于或等于2、且小于S的整数,所述T等于S/L;
[0017]将所述第一特征图、所述第三特征图和所述第四特征图确定为所述重组特征图。
[0018]可选地,所述对所述原始特征图进行空间重组,得到第一特征图和第二特征图,包括:
[0019]在所述原始特征图内划分多个组分辨率为K*K的小组,得到第一特征图,并从所述原始特征图中,每间隔K

1个位置取一个特征,S*S个特征组成一个小组,多个组分辨率为S*S的小组构成第二特征图。
[0020]可选地,所述在所述第二特征图的每个小组内进行空间重组,得到第三特征图和第四特征图,包括:
[0021]针对所述第二特征图的任一组分辨率为S*S的小组,在所述任一组分辨率为S*S的小组内进一步划分多个组分辨率为L*L的小组,得到第三特征图,并从所述任一组分辨率为S*S的小组中,每间隔L

1个位置取一个特征,T*T个特征组成一个小组,多个组分辨率为T*T的小组构成第四特征图。
[0022]可选地,所述S具有整数平方根,且所述S大于所述K。
[0023]可选地,所述改进的Transformer网络包括的多个串联的Transformer层中,第i个所述Transformer层用于对所述第一特征图进行自注意力计算,第j个所述Transformer层用于对所述第四特征图进行自注意力计算,第m个所述Transformer层用于对所述第三特征图进行自注意力计算;其中,i={1,4,7,

,n

2},j={2,5,8,

,n

1},m={3,6,9,

,n},n为所述Transformer层的总数。
[0024]第二方面,本专利技术还提供一种图像识别装置,包括:
[0025]获取单元,用于获取待识别图像;
[0026]识别单元,用于将所述待识别图像输入改进的Transformer网络,得到所述改进的Transformer网络输出的图像识别结果;
[0027]所述改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;
[0028]所述改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于所述至少三个重组特征图进行自注意力计算;其中,每个所述重组特征图内都划分多个小组,自注意力计算在每个所述小组内进行。
[0029]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述第一方面所述的图像识别方法。
[0030]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上所述第一方面所述的图像识别方法。
[0031]本专利技术提供的图像识别方法、装置、电子设备和存储介质,通过改进的Transformer网络进行图像识别,该改进的Transformer网络可以对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,然后基于该至少三个重组特征图在小组内进行自注意力计算,从而可以显著降低网络的计算量,提高图像识别的效率,降低图像识别的显
存占用。
附图说明
[0032]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1为本专利技术提供的图像识别方法的流程示意图;
[0034]图2为本专利技术提供的特征图重组过程示意图之一;
[0035]图3为本专利技术提供的特征图重组过程示意图之二;
[0036]图4为本专利技术提供的图像识别装置的结构示意图;
[0037]图5为本专利技术提供的电子设备的结构示意图。
具体实施方式
[0038]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别方法,其特征在于,包括:获取待识别图像;将所述待识别图像输入改进的Transformer网络,得到所述改进的Transformer网络输出的图像识别结果;所述改进的Transformer网络是基于带有图像识别结果标签的样本图像训练得到的;所述改进的Transformer网络用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,并基于所述至少三个重组特征图进行自注意力计算;其中,每个所述重组特征图内都划分多个小组,自注意力计算在每个所述小组内进行。2.根据权利要求1所述的图像识别方法,其特征在于,所述改进的Transformer网络包括空间重组模块、自注意力模块和分类模块;所述空间重组模块用于对输入图像的原始特征图进行空间重组,得到至少三个重组特征图;所述自注意力模块包括多个串联的Transformer层,每个所述Transformer层用于对一个所述重组特征图进行自注意力计算;所述分类模块用于基于最后一个所述Transformer层输出的特征图,输出图像识别结果。3.根据权利要求1或2所述的图像识别方法,其特征在于,所述对输入图像的原始特征图进行空间重组,得到至少三个重组特征图,包括:对所述原始特征图进行空间重组,得到第一特征图和第二特征图,所述第一特征图内划分多个组分辨率为K*K的小组,所述第二特征图内划分多个组分辨率为S*S的小组;其中,所述K为大于或等于2的整数,所述S等于所述原始特征图的宽或高与所述K的比值;在所述第二特征图的每个小组内进行空间重组,得到第三特征图和第四特征图,所述第三特征图内划分多个组分辨率为L*L的小组,所述第四特征图内划分多个组分辨率为T*T的小组;其中,所述L为大于或等于2、且小于S的整数,所述T等于S/L;将所述第一特征图、所述第三特征图和所述第四特征图确定为所述重组特征图。4.根据权利要求3所述的图像识别方法,其特征在于,所述对所述原始特征图进行空间重组,得到第一特征图和第二特征图,包括:在所述原始特征图内划分多个组分辨率为K*K的小组,得到第一特征图,并从所述原始特征图中,每间隔K

1个位置取一个特征,S*S个特征组成一个小组,多个组分辨率为S*S的小组构成第二特征图。5.根据权利要求3所述的图像识别方法,其特征在于,...

【专利技术属性】
技术研发人员:朱宽郭海云王金桥唐明
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1