基于随机游走核自注意力机制的图像处理方法及装置制造方法及图纸

技术编号:36805912 阅读:20 留言:0更新日期:2023-03-09 00:14
本说明书实施例提供基于随机游走核自注意力机制的图像处理方法及装置,其中所述基于随机游走核自注意力机制的图像处理方法包括:基于目标图像处理任务获得待处理图像;将所述待处理图像输入至图像处理模型进行图像处理,其中,所述图像处理模型是基于随机游走核自注意力机制的神经网络模型;获得所述图像处理模型输出的所述待处理图像对应的图像处理结果。通过本方法使得Transformer结构的图像处理模型可以处理更长长度的图像序列,进而使得图像处理模型可以处理更精细力度的图像,使得图像处理模型具有更高的泛化行。处理模型具有更高的泛化行。处理模型具有更高的泛化行。

【技术实现步骤摘要】
基于随机游走核自注意力机制的图像处理方法及装置


[0001]本说明书实施例涉及图像处理
,特别涉及基于随机游走核自注意力机制的图像处理方法。

技术介绍

[0002]在图像分类、图像分割、目标检测等计算机视觉任务中,Transformer结构均取得了较好的性能,在图像处理任务中,通常是将图像分成多个小的图像块,然后将多个图像块排列成一个序列作为模型的输入,多个图像块提供了更高细粒度的图像,同时也导致了更长的输入序列,这使得Transformer结构中的自注意力机制的计算复杂度和空间复杂度在训练和应用时都更加复杂。
[0003]因此,需要研究一种泛化行更好,且更加有效针对视觉任务的自注意力机制和图像处理模型,从而提高Transformer结构的处理效率。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了基于随机游走核自注意力机制的图像处理方法。本说明书一个或者多个实施例同时涉及基于随机游走核自注意力机制的图像处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种基于随机游走核自注意力机制的图像处理方法,包括:
[0006]基于目标图像处理任务获得待处理图像;
[0007]将所述待处理图像输入至图像处理模型进行图像处理,其中,所述图像处理模型是基于随机游走核自注意力机制的神经网络模型;
[0008]获得所述图像处理模型输出的所述待处理图像对应的图像处理结果。
[0009]根据本说明书实施例的第二方面,提供了一种基于随机游走核自注意力机制的图像处理装置,包括:
[0010]获取模块,被配置为基于目标图像处理任务获得待处理图像;
[0011]输入模块,被配置为将所述待处理图像输入至图像处理模型进行图像处理,其中,所述图像处理模型是基于随机游走核自注意力机制的神经网络模型;
[0012]生成模块,被配置为获得所述图像处理模型输出的所述待处理图像对应的图像处理结果。
[0013]根据本说明书实施例的第三方面,提供了一种计算设备,包括:
[0014]存储器和处理器;
[0015]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述基于随机游走核自注意力机制的图像处理方法的步骤。
[0016]根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述基于随机游走核自注意力机制的图像处理方法的步骤。
[0017]根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述基于随机游走核自注意力机制的图像处理方法的步骤。
[0018]在本说明书提供的图像处理方法中,设计了一种基于随机游走核函数的简化自注意力机制,将输入的图像序列中不同的待处理子图像看作有向图中不同的节点,待处理子图像之间的关系看作有向图中的有向边,通过随机游走核函数建模图中不同节点之间的多层级相似度关系,最终得到简化的自注意力机制,可以适用于不同计算机视觉任务中使用的Transformer结构。使得Transformer结构的图像处理模型可以处理更长长度的图像序列,进而使得图像处理模型可以处理更精细力度的图像,使得图像处理模型具有更高的泛化行。
附图说明
[0019]图1是本说明书一个实施例提供的一种基于随机游走核自注意力机制的图像处理方法的示意图;
[0020]图2是本说明书一个实施例提供的一种基于随机游走核自注意力机制的图像处理方法的流程图;
[0021]图3是本说明书一个实施例提供的图像处理模型的结构示意图;
[0022]图4是本说明书一个实施例提供的图像处理模型中编码器的结构示意图;
[0023]图5是本说明书一个实施例提供的基于随机游走核自注意力层的特征处理示意图;
[0024]图6是本说明书一个实施例提供的基于随机游走核自注意力机制的图像处理方法的处理过程流程图;
[0025]图7是本说明书一个实施例提供的一种基于随机游走核自注意力机制的图像处理装置的结构示意图;
[0026]图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
[0027]在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0028]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0029]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描
述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0030]首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
[0031]随机游走核函数:一种通过计算加权随机游走距离,进一步度量有向图中不同节点间相似度的方法。
[0032]自注意力机制:一种特殊的人工神经网络结构,在对文本或图像等序列类型的数据的建模中具有很好的效果。
[0033]Vision Transformer:VIT,是目前计算机视觉领域热门的深度网络结构,将Transformer模型首次应用于计算机视觉领域,其基本组成部分是自注意力模块。
[0034]VIT第一次将Transformer结构应用在了计算机视觉领域,也取得了非常好的效果,在计算机视觉领域中,Transformer结构相比于卷积结构,有更好的全局的长距离相关的建模能力,但是受限于自注意力机制的结构设计,其计算复杂度和空间复杂度与输入序列长度的二次幂成正比。因此Transformer结构不能很好的处理非常长的输入序列,这个问题在计算机视觉领域往往更为严重:一方面对图像细节的建模,需要将一张图像用更小的图像块、更长的序列进行表示;另一方面图像本身具有二维结构,导致自注意力机制的计算复杂度和图像的分辨率的四次幂成正比。因此使得Transformer结构中的自注意力机制的计算复杂度和空间复杂度更难以接受。
[0035]目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机游走核自注意力机制的图像处理方法,包括:基于目标图像处理任务获得待处理图像;将所述待处理图像输入至图像处理模型进行图像处理,其中,所述图像处理模型是基于随机游走核自注意力机制的神经网络模型;获得所述图像处理模型输出的所述待处理图像对应的图像处理结果。2.如权利要求1所述的方法,所述图像处理模型包括嵌入层、编码器、任务处理模块;将所述待处理图像输入至图像处理模型进行图像处理,包括:将所述待处理图像分割为多个待处理子图像;将所述多个待处理子图像分别输入至所述嵌入层,获得每个待处理子图像对应的待处理子图像编码矩阵;将每个待处理子图像编码矩阵输入至所述编码器,获得图像编码矩阵,其中,所述编码器包括基于随机游走核自注意力机制的编码层;将所述图像编码矩阵输入至所述任务处理模块,获得所述任务处理模块输出的图像处理结果。3.如权利要求2所述的方法,所述编码器包括n个顺次连接的编码层,每个编码层包括基于随机游走核自注意力层和前馈神经网络层,其中,n为大于等于2的正整数;对于任一编码层,包括:接收待处理子图像特征矩阵;将所述待处理子图像特征矩阵输入至基于随机游走核自注意力层,获得第一子层矩阵;将所述第一子层矩阵输入至前馈神经网络层,获得子图像特征矩阵。4.如权利要求3所述的方法,对于第1个编码层,接收待处理子图像特征矩阵,包括:接收所述子图像待编码矩阵;对于除第1个编码层的其他编码层,接收待处理子图像特征矩阵,包括:接收上一个编码层输出的子图像特征矩阵。5.如权利要求3所述的方法,将所述待处理子图像特征矩阵输入至基于随机游走核自注意力层,获得第一子层矩阵,包括:对所述待处理子图像特征矩阵进行线性转换得到键矩阵、查询矩阵和值矩阵,并确定游走核矩阵;根据所述查询矩阵和所述游走核矩阵获得第...

【专利技术属性】
技术研发人员:张轶飞郑可成沈宇军刘宇黄梁华阳展韬张晗赵德丽
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1