基于自注意力机制的图像特征提取方法、装置及设备制造方法及图纸

技术编号:33706125 阅读:13 留言:0更新日期:2022-06-06 08:28
本说明书一个或多个实施例提供一种基于自注意力机制的图像特征的提取方法、装置及设备,包括:获取目标图像;将所述目标图像输入至已训练的基于神经网络的编解码模型,以由所述基于神经网络的编解码模型基于支持的多种滑动窗口对所述目标图像进行自注意力编码,得到该目标图像的特征向量;其中,各种滑动窗口对应不同的图像特征提取维度;获取所述基于神经网络的编解码模型输出的所述目标图像的特征向量。向量。向量。

【技术实现步骤摘要】
基于自注意力机制的图像特征提取方法、装置及设备


[0001]本说明书一个或多个实施例涉及计算机视觉
,尤其涉及一种基于自注意力机制的图像特征的提取方法、装置及设备。

技术介绍

[0002]在相关技术中,基于神经网络的编解码模型是基于自注意力机制的基础模型,具有强大的表示能力,通常用于自然语言处理。比如自然语言的处理任务是英译汉,则将英文句子输入该基于神经网络的编解码模型进行处理,该模型可输出该英文句子对应的汉语句子。
[0003]受到基于神经网络的编解码模型强大的表示能力的启发,一些学者将基于神经网络的编解码模型扩展到机器视觉领域,比如通过基于神经网络的编解码模型进行图像特征提取。与现在常用的卷积神经网络进行图像特征提取相比,基于神经网络的编解码模型在图像特征提取方面的性能更好。

技术实现思路

[0004]有鉴于此,本说明书一个或多个实施例提供一种基于自注意力机制的图像特征的提取方法、装置及设备。
[0005]为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
[0006]根据本说明书一个或多个实施例的第一方面,提出了一种基于自注意力机制的图像特征提取方法,包括:
[0007]获取目标图像;
[0008]将所述目标图像输入至已训练的基于神经网络的编解码模型,以由所述基于神经网络的编解码模型基于支持的多种滑动窗口对所述目标图像进行自注意力编码,得到该目标图像的特征向量;其中,各种滑动窗口对应不同的图像特征提取维度;
[0009]获取所述基于神经网络的编解码模型输出的所述目标图像的特征向量。
[0010]可选的,所述基于神经网络的编解码模型包括第一模块;所述第一模块包括:第一卷积层和自注意力计算层;
[0011]所述基于支持的多种滑动窗口对所述目标图像进行自注意力编码,得到该目标图像的特征向量,包括:
[0012]所述第一模块中的第一卷积层对所述目标图像进行卷积得到该目标图像的初始特征矩阵,并将初始特征矩阵作为输入矩阵输入至本模块的自注意力计算层;
[0013]所述第一模块的自注意力计算层基于支持的多种滑动窗口对所述输入矩阵进行自注意力编码得到本模块的输出矩阵,并依据所述第一模块的输出矩阵,确定所述目标图像的特征向量。
[0014]可选的,所述基于神经网络的编解码模型还包括:至少一个级联的第二模块;第二模块包括第二卷积层和自注意力计算层;
[0015]所述依据所述第一模块的输出矩阵,确定所述目标图像的特征向量,包括:
[0016]所述第一模块的自注意力计算层将该第一模块的输出矩阵输入至位于首位的第二模块;
[0017]每个第二模块的第二卷积层对上一个模块输出的输出矩阵进行卷积,并将卷积结果作为输入矩阵输入至本第二模块的自注意力计算层;
[0018]第二模块的自注意力计算层基于支持的多种滑动窗口对所述输入矩阵进行自注意力编码得到本模块的输出矩阵;
[0019]最后一个第二模块的自注意力计算层将得到的输出矩阵作为所述目标图像的特征向量。
[0020]可选的,所述基于支持的多种滑动窗口对所述输入矩阵进行自注意力编码得到本模块的输出矩阵,包括:
[0021]针对每一种滑动窗口,基于该种滑动窗口对所述输入矩阵进行自注意力编码,得到编码矩阵;
[0022]对所述编码矩阵进行卷积;其中,卷积后的编码矩阵表征所述目标图像的各像素点的位置特征;所述位置特征包括局部位置特征,和/或全局位置特征;
[0023]将卷积后的编码矩阵与所述编码矩阵进行拼接得到拼接矩阵;
[0024]将每种滑动窗口对应的拼接矩阵进行融合,得到本模块的输出矩阵。
[0025]可选的,所述基于该滑动窗口对所述输入矩阵进行注意力编码,得到编码矩阵,包括:
[0026]按照预设步长,在所述输入矩阵上滑动该滑动窗口;
[0027]针对每一次滑动操作,确定该滑动窗口在该输入矩阵上圈出的目标区域,针对该目标区域中的每个元素,计算该元素分别与本元素、以及该目标区域的其他元素之间的关联程度评分,并依据关联程度评分得到本元素对应的自注意力编码值,并在所述输入矩阵中将该元素的取值更新为该自注意力编码值,得到编码矩阵。
[0028]可选的,所述第一模块中的第一卷积层对所述目标图像进行卷积得到该目标图像的初始特征矩阵,包括:
[0029]所述第一卷积层对所述目标图像进行至少一次的连续卷积处理得到该目标图像的初始特征矩阵;其中,每次卷积处理所对应的卷积核的尺寸小于或等于预设阈值。
[0030]可选的,所述多种滑动窗口包括:用于从图像全局维度提取图像特征的第一滑动窗口、以及用于从图像局部维度提取图像特征的第二滑动窗口。
[0031]可选的,每种滑动窗口包括:至少一个有效计算区域;当有效计算区域为多个时,多个有效计算区域在滑动窗口中间隔设置;
[0032]所述确定该滑动窗口在该输入矩阵上圈出的目标区域,包括:
[0033]将该滑动窗口的有效区域在该输入矩阵上圈出的区域作为目标区域。
[0034]可选的,所述基于神经网络的编解码模型为支持自注意力机制的Transformer模型。
[0035]根据本说明书一个或多个实施例的第二方面,提出了一种基于自注意力机制的图像特征提取装置,包括:
[0036]第一获取模块,用于获取目标图像;
[0037]输入模块,用于将所述目标图像输入至已训练的基于神经网络的编解码模型,以由所述基于神经网络的编解码模型基于支持的多种滑动窗口对所述目标图像进行自注意力编码,得到该目标图像的特征向量;其中,各种滑动窗口对应不同的图像特征提取维度;
[0038]第二获取模块,用于获取所述基于神经网络的编解码模型输出的所述目标图像的特征向量。
[0039]可选的,所述基于神经网络的编解码模型包括第一模块;所述第一模块包括:第一卷积层和自注意力计算层;
[0040]在基于支持的多种滑动窗口对所述目标图像进行自注意力编码,得到该目标图像的特征向量时,所述第一模块中的第一卷积层,用于所述目标图像进行卷积得到该目标图像的初始特征矩阵,并将初始特征矩阵作为输入矩阵输入至本模块的自注意力计算层;
[0041]所述第一模块的自注意力计算层,用于基于支持的多种滑动窗口对所述输入矩阵进行自注意力编码得到本模块的输出矩阵,并依据所述第一模块的输出矩阵,确定所述目标图像的特征向量。
[0042]可选的,所述基于神经网络的编解码模型还包括:至少一个级联的第二模块;第二模块包括第二卷积层和自注意力计算层;
[0043]在依据所述第一模块的输出矩阵,确定所述目标图像的特征向量时,所述第一模块的自注意力计算层,用于将该第一模块的输出矩阵输入至位于首位的第二模块;
[0044]每个第二模块的第二卷积层,用于对上一个模块输出的输出矩阵进行卷积,并将卷积结果作为输入矩阵输入至本第二模块的自注意力计算层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制的图像特征提取方法,包括:获取目标图像;将所述目标图像输入至已训练的基于神经网络的编解码模型,以由所述基于神经网络的编解码模型基于支持的多种滑动窗口对所述目标图像进行自注意力编码,得到该目标图像的特征向量;其中,各种滑动窗口对应不同的图像特征提取维度;获取所述基于神经网络的编解码模型输出的所述目标图像的特征向量。2.根据权利要求1所述的方法,所述基于神经网络的编解码模型包括第一模块;所述第一模块包括:第一卷积层和自注意力计算层;所述基于支持的多种滑动窗口对所述目标图像进行自注意力编码,得到该目标图像的特征向量,包括:所述第一模块中的第一卷积层对所述目标图像进行卷积得到该目标图像的初始特征矩阵,并将初始特征矩阵作为输入矩阵输入至本模块的自注意力计算层;所述第一模块的自注意力计算层基于支持的多种滑动窗口对所述输入矩阵进行自注意力编码得到本模块的输出矩阵,并依据所述第一模块的输出矩阵,确定所述目标图像的特征向量。3.根据权利要求2所述的方法,所述基于神经网络的编解码模型还包括:至少一个级联的第二模块;第二模块包括第二卷积层和自注意力计算层;所述依据所述第一模块的输出矩阵,确定所述目标图像的特征向量,包括:所述第一模块的自注意力计算层将该第一模块的输出矩阵输入至位于首位的第二模块;每个第二模块的第二卷积层对上一个模块输出的输出矩阵进行卷积,并将卷积结果作为输入矩阵输入至本第二模块的自注意力计算层;第二模块的自注意力计算层基于支持的多种滑动窗口对所述输入矩阵进行自注意力编码得到本模块的输出矩阵;最后一个第二模块的自注意力计算层将得到的输出矩阵作为所述目标图像的特征向量。4.根据权利要求2或3所述的方法,所述基于支持的多种滑动窗口对所述输入矩阵进行自注意力编码得到本模块的输出矩阵,包括:针对每一种滑动窗口,基于该种滑动窗口对所述输入矩阵进行自注意力编码,得到编码矩阵;对所述编码矩阵进行卷积;其中,卷积后的编码矩阵表征所述目标图像的各像素点的位置特征;所述位置特征包括局部位置特征,和/或全局位置特征;将卷积后的编码矩阵与所述编码矩阵进行拼接得到拼接矩阵;将每种滑动窗口对应的拼接矩阵进行融合,得到本模块的输出矩阵。5.根据权利要求4所述的方法,所述基于该滑动窗口对所述输入矩阵进行注意力编码,得到编码矩阵,包括:按照预设步长,在所述输入矩阵上滑动该滑动窗口;针对每一次滑动操作,确定该滑动窗口在该输入矩阵上圈出的目标区域,针对该目标区域中的每个元素,计算该元素分别与本元素、以及该目标区域的其他元素之间的关联程
度评分,并依据关联程度评分得到本元素对应的自注意力编码值,并在所述输入矩阵中将该元素的取值更新为该自注意力编码值,得到编码矩阵。6.根据权利要求2所述的方法,所述第一模块中的第一卷积层对所述目标图像进行卷积得到该目标图像的初始特征矩阵,包括:所述第一卷积层对所述目标图像进行...

【专利技术属性】
技术研发人员:郭求是
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1