一种图像处理方法、装置和介质制造方法及图纸

技术编号:36538577 阅读:18 留言:0更新日期:2023-02-01 16:30
本公开一个或多个实施例提供一种图像处理方法、装置和介质,其中,该方法包括:对待处理的目标图像进行卷积处理得到特征图;将所述特征图输入ViT,依次通过所述ViT中的编码块对特征图进行特征提取,直至得到最后一个编码块输出的特征图;编码块对输入的特征图进行特征提取,包括:对输入所述编码块的特征图进行卷积运算,得到局部特征;对输入编码块的特征图进行下采样处理,对所述下采样处理之后的特征图通过自注意力机制模块进行全局特征提取,得到全局特征;将所述局部特征和所述全局特征进行融合,得到第一融合特征;基于所述第一融合特征,得到所述编码块输出的特征图,所述输出的特征图用于表示输入编码块的特征图的图像特征。特征。特征。

【技术实现步骤摘要】
一种图像处理方法、装置和介质


[0001]本说明书一个或多个实施例涉及计算机视觉技术,尤其涉及一种图像处理方法、装置和介质。

技术介绍

[0002]Transformer框架首次被提出是用于自然语言处理,由于其使用自注意力机制(而非局部卷积)来捕捉全局的上下文信息,被证明是一种强大的特征提取范式,在机器翻译任务上具有卓越的性能。Vision Transformer(ViT)是Transformer用于计算机视觉任务的一项开创性工作,它将标准Transformer中的编码块应用于视觉任务,将输入图像划分为块,并将图像块类比成自然语言处理任务中的一个单词。
[0003]ViT的设计在实现各种视觉任务的更高性能方面显示出巨大的前景,在图像处理上显示出较高的性能。但是,ViT的计算复杂度较高,计算效率较低,这就使得工程实践中应用ViT时耗费的资源较大,处理效率不高。

技术实现思路

[0004]有鉴于此,本说明书一个或多个实施例提供一种图像处理方法、装置和介质。
[0005]为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
[0006]根据本说明书一个或多个实施例的第一方面,提出了一种图像处理方法,该方法包括:
[0007]对待处理的目标图像进行卷积处理得到特征图;
[0008]将所述特征图输入ViT,依次通过所述ViT中的编码块对所述特征图进行特征提取,直至得到最后一个编码块输出的特征图;
[0009]其中,所述ViT中的编码块对输入的特征图进行特征提取,具体包括:
[0010]对输入所述编码块的特征图进行卷积运算,得到局部特征;
[0011]对输入所述编码块的特征图进行下采样处理,对所述下采样处理之后的特征图通过自注意力机制模块进行全局特征提取,得到全局特征;
[0012]将所述局部特征和所述全局特征进行融合,得到第一融合特征;
[0013]基于所述第一融合特征,得到所述编码块输出的特征图,所述输出的特征图用于表示输入所述编码块的特征图的图像特征。
[0014]根据本说明书一个或多个实施例的第二方面,提出了一种图像处理装置,该装置包括:
[0015]图像预处理单元,用于对待处理的目标图像进行卷积处理得到特征图;
[0016]ViT图像编码单元,所述ViT图像编码单元包括至少两个编码块,且所述至少两个编码块之间进行级联;
[0017]所述ViT图像编码单元用于接收所述特征图,依次通过所述ViT图像编码单元包括的各个编码块对所述特征图进行特征提取,直至得到最后一个编码块输出的特征图;
[0018]所述ViT图像编码单元中的编码块对输入的特征图进行特征提取,具体包括:对输入所述编码块的特征图进行卷积运算,得到局部特征;对输入所述编码块的特征图进行下采样处理,对所述下采样处理之后的特征图通过自注意力机制模块进行全局特征提取,得到全局特征;将所述局部特征和所述全局特征进行融合,得到第一融合特征;基于所述第一融合特征,得到所述编码块输出的特征图,所述输出的特征图用于表示输入所述编码块的特征图的图像特征。
[0019]根据本说明书一个或多个实施例的第三方面,提出了一种电子设备,包括:
[0020]处理器;
[0021]用于存储处理器可执行指令的存储器;
[0022]其中,所述处理器通过运行所述可执行指令以实现本说明书任一实施例的方法。
[0023]根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现本说明书任一实施例的方法。
[0024]本公开实施例的图像处理方法、装置、电子设备和介质,通过在将特征图输入ViT的编码块中的自注意力机制模块之前,先对该特征图进行下采样处理,减少了ViT的计算复杂度,提高了ViT的处理效率;并且,通过对特征图进行局部特征和全局特征的提取,并根据融合后的特征获得特征图,使得编码块在对特征图的处理过程中同时保留了局部特征和全局特征,有助于保证ViT的精度和高性能。
附图说明
[0025]为了更清楚地说明本公开一个或多个实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0026]图1是一示例性实施例提供的一种ViT的框架架构图。
[0027]图2是一示例性实施例提供的一种编码块的结构示意图。
[0028]图3是一示例性实施例提供的一种图像处理方法的流程图。
[0029]图4是一示例性实施例提供的一种编码块的结构示意图。
[0030]图5是一示例性实施例提供的一种全局特征的输出流程图。
[0031]图6是一示例性实施例提供的另一种编码块的结构示意图。
[0032]图7是一示例性实施例提供的另一种图像处理方法的流程图。
[0033]图8是一示例性实施例提供的编码块中的一种特征融合方式示意图。
[0034]图9是一示例性实施例提供的权重矩阵示意图。
[0035]图10a是一示例性实施例提供的编码块中的一种特征融合方式示意图。
[0036]图10b是一示例性实施例提供的编码块中的另一种特征融合方式示意图。
[0037]图10c是一示例性实施例提供的编码块中的又一种特征融合方式示意图。
[0038]图11是一示例性实施例提供的一种图像处理装置的结构示意图。
具体实施方式
[0039]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及
附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
[0040]需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
[0041]本公开实施例的图像处理方法,是通过ViT(Vision Transformer,用于视觉的Transformer)框架对图像进行处理。图1是一示例性实施例提供的一种ViT的框架架构图,如图1所示,当ViT应用于基础的图像分类时,该ViT可以包括:多个阶段(Stage),例如,图1中示例的阶段1、阶段2

阶段n,其中,n是自然数。示例性的,n可以是4。所述的多个阶段可以表示对输入Vi本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法,其特征在于,所述方法包括:对待处理的目标图像进行卷积处理得到特征图;将所述特征图输入ViT,依次通过所述ViT中的编码块对所述特征图进行特征提取,直至得到最后一个编码块输出的特征图;其中,所述ViT中的编码块对输入的特征图进行特征提取,具体包括:对输入所述编码块的特征图进行卷积运算,得到局部特征;对输入所述编码块的特征图进行下采样处理,对所述下采样处理之后的特征图通过自注意力机制模块进行全局特征提取,得到全局特征;将所述局部特征和所述全局特征进行融合,得到第一融合特征;基于所述第一融合特征,得到所述编码块输出的特征图,所述输出的特征图用于表示输入所述编码块的特征图的图像特征。2.根据权利要求1所述的方法,其特征在于,所述ViT中的编码块对输入的特征图进行特征提取,还包括;对输入所述编码块的特征图进行特征补偿处理,得到补偿特征;所述对所述下采样处理之后的特征图通过自注意力机制模块进行全局特征提取,得到全局特征,包括:将所述补偿特征与所述下采样处理之后的特征图进行融合,得到第二融合特征;通过自注意力机制模块对所述第二融合特征进行处理,得到注意力输出特征;融合所述注意力输出特征和所述第二融合特征,得到所述全局特征。3.根据权利要求2所述的方法,其特征在于,所述对输入所述编码块的特征图进行特征补偿处理,得到补偿特征,包括:对所述特征图进行最大池化处理,得到所述补偿特征。4.根据权利要求1所述的方法,其特征在于,所述基于所述第一融合特征,得到所述编码块输出的特征图,包括:对所述第一融合特征,通过所述编码块中的前馈网络进行特征处理,得到所述编码块输出的特征图。5.根据权利要求1

4任一项所述的方法,其特征在于,所述将所述局部特征和所述全局特征进行融合,得到第一融合特征,包括:对所述局部特征和全局特征,分别通过注意力机制模块进行特征处理,得到局部特征对应的第一融合权重、以及全局特征对应的第二融合权重;根据所述第一融合权重和第二融合权重,对所述局部特征和全局特征进行融合,得到所述第一融合特征。6.根据权利要求5所述的方法,其特征在于,所述对所述局部特征和全局特征分别通过注意力机制模块进行特...

【专利技术属性】
技术研发人员:高莉聂栋任小枫
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1