当前位置: 首页 > 专利查询>东南大学专利>正文

视觉深度自适应神经网络的一维卷积位置编码方法技术

技术编号:28475820 阅读:146 留言:0更新日期:2021-05-15 21:44
本发明专利技术公开了一种视觉深度自适应神经网络的一维卷积位置编码方法,包括:1)将输入的批量图片分为N2个片段,图片通道数由C转换为D,并将宽高维度展开为1维;2)将通道维度与宽高维度进行置换;3)将2)结果与分类表征拼接,分类表征是一个可学习的向量;4)将3)结果进行一维卷积,将卷积结果作为位置编码,并将位置编码与3)结果进行相加;5)用1)

【技术实现步骤摘要】
视觉深度自适应神经网络的一维卷积位置编码方法


[0001]本专利技术涉及人工智能领域,尤其是深度自适应(Transformer)神经网络位置编码方法。

技术介绍

[0002]Transformer模型是基于自注意力模块的一种深度神经网络模型,原本应用于自然语言处理领域。由于其强大的表达能力,研究者将Transformer应用在了计算机视觉任务,如图像识别、目标检测、语义分割等。Transformer神经网络模型在计算机视觉任务上展现了与卷积神经网络相匹敌甚至是比卷积神经网络更好的结果。
[0003]近年来谷歌的Ashish Vaswani等人提出ViT,将图片分成序列,再使用Transformer中的Embedded和堆叠的Encoder模块用于图像识别,在大数据集上预训练之后,在基准数据集上测试结果达到了与卷积神经网络相匹敌的性能;2021年依图科技提出首次全面超越ResNet,甚至轻量化版本优于MobileNet系列的T2T

ViT模型,该模型提出了一种新颖的Tokens

to

Tokens机制,用于同时建模图像的局部结构信息与全局相关性,同时还借鉴了CNN架构设计思想引导ViT的骨干设计。2020年加州大学伯克利分校的Aravind Srinivas等人提出了BoTNet[13],将Transformer中的多头注意力模块用于ResNet的Bottleneck结构中,用于代替原Bottleneck中的3
×
3卷积,并且只在最后3个block中使用该Bottleneck Transformer Block,最终在ImageNet上的精度高达84.1%的top

1精度。Transformer在计算机视觉领域激起了研究热潮。如何让Transformer模型更加适用于视觉任务,如何提高Transformer模型的鲁棒性、如何让Transformer更具有解释性以及如何轻量化Transformer都是继续破解的课题。
[0004]Transformer中最重要的模块为自注意力模块,然而由于自注意力模块不能获取位置信息,所以必须要加上位置编码。位置编码有多种实现方式例如可学习的位置编码、正弦位置编码、2D相对位置编码等。视觉Transformer受限于固定长度的位置编码,并不能像CNN一样处理不同尺度的输入,ViT中对位置编码进行插值,使其适用于不同的图片尺寸输入,但需要微调模型以保持精度。本专利技术所提出的专利技术通过一维卷积实现位置编码,使得视觉Transformer可以更好地处理图片的位置信息,并提升模型的精度。

技术实现思路

[0005]技术问题:本专利技术所要解决的技术问题在于提供视觉深度自适应神经网络的一维卷积位置编码方法,使深度自适应神经网络可以更好地学习图片的位置信息,改变了原有位置编码对输入图像大小的限制,同时提高了模型精度。
[0006]技术方案:本专利技术的一种视觉深度自适应神经网络的一维卷积位置编码方法包括如下步骤:
[0007]步骤1:将批次图像维度为(B、C、H、H)进行卷积,其中B表示图片张数,C表示每张图片的通道数,H表示图片的长和宽;卷积核大小为P、步长为S、输入通道数为C、输出通道数为
D,卷积后的特征图维度为(B、D、N、N),其中N=H/P;
[0008]步骤2:将步骤1结果的N、N两个维度展开为一个维度,转换后结果维度为(B、D、N2);
[0009]步骤3:对步骤2结果的D、N2两个维度进行置换,置换后结果的维度变为(B、N2、D);
[0010]步骤4:将分类表征与步骤3结果按照第二维度N2进行拼接操作,分类表征为维度(B、1、D)的随机初始化的向量,拼接后结果维度为(B、N2+1、D);
[0011]步骤5:对步骤4结果按照第三维度D进行一维卷积得到位置编码,一维卷积的卷积核大小为K,填充大小为K//2,由于采用的是特征图大小不变的卷积方式,结果的位置编码维度仍为(B、N2+1、D);
[0012]步骤6:将步骤4位置编码结果与步骤5结果进行相加,由于采用的是逐元素相加的方式,最终结果维度仍为(B、N2+1、D);
[0013]步骤7:搭建编码网络与步骤1至6一起作为一个深度自适应神经网络。
[0014]其中,
[0015]所述步骤1进行卷积核大小为P、步长为S、输入通道数为C、输出通道数为D的二维卷积,相当于对批次图像的每张图片按照图片长、宽两个维度进行切割,切割大小即是卷积核大小P,并对切割后产生的N
×
N个片段进行嵌入,使每个片段产生维度为1
×
D的嵌入向量。
[0016]所述步骤2,将原维度为(B、D、N、N)的特征图转换为维度为(B、D、N
×
N)的特征图,转换方式为将N个N维向量顺序拼接成一个N
×
N维向量。
[0017]所述步骤3,将原维度为(B,D,N
×
N)的特征图转换为维度为(B,N
×
N,D)的特征图,转换方式采用矩阵转置。
[0018]所述步骤4,将维度为(B,1,D)的分类表征向量与步骤3产生的维度为(B,N
×
N,D)的特征图进行拼接,拼接方式为按照第二维度进行拼接,即将1与N2拼接。
[0019]所述步骤5,对步骤4产生的结果进行一维卷积,即对N
×
N+1个向量进行一维卷积,对单个向量进行卷积核大小为3,填充为1进行一维卷积相当于进行如下矩阵乘:
[0020][0021]所述编码网络由多头自注意力模块及前向传播神经网络组成,多头自注意力模块的具体操作是,首先将输入分为H个部分,每个部分分别转换为查询矢量、键矢量及值矢量,将查询矢量与键矢量的转置进行矩阵乘用于计算相似度,之后为了有更稳定的梯度,需对结果进行缩放,缩放之后的结果再通过归一化指数函数Softmax将值转换为相似度,最后与值矢量矩阵乘;在注意力模块操作完成后会与未经过注意力模块前的结果相加以产生短连接,最后经过层归一化;前向传播神经网络由两个前馈网络及一个非线性激活函数组成,非线性激活函数用高斯误差线性单元GELU。
[0022]所述深度自适应神经网络在搭建好之后,由于深度自适应神经网络相对于卷积神经网络模型复杂,需要在大数据集且图像分辨率大的数据集上进行训练,用于视觉对象识
别软件研究的、由1400多万幅分辨率为224
×
224的图片组成大型可视化数据库ImageNet。
[0023]所述深度自适应神经网络需利用在所述ImageNet上预训练好的模型进行微调,以测试其他基准数据集。
[0024]所述基准数据集为:用于普适物体识别的计算机视觉数据集Cifar10、Cifar100,其中Cifar10由10类60000个32
×
32彩色图像组成,Cifar100由100个类别图像本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于,该方法包括如下步骤:步骤1:将批次图像维度为(B、C、H、H)进行卷积,其中B表示图片张数,C表示每张图片的通道数,H表示图片的长和宽;卷积核大小为P、步长为S、输入通道数为C、输出通道数为D,卷积后的特征图维度为(B、D、N、N),其中N=H/P;步骤2:将步骤1结果的N、N两个维度展开为一个维度,转换后结果维度为(B、D、N2);步骤3:对步骤2结果的D、N2两个维度进行置换,置换后结果的维度变为(B、N2、D);步骤4:将分类表征与步骤3结果按照第二维度N2进行拼接操作,分类表征为维度(B、1、D)的随机初始化的向量,拼接后结果维度为(B、N2+1、D);步骤5:对步骤4结果按照第三维度D进行一维卷积得到位置编码,一维卷积的卷积核大小为K,填充大小为K//2,由于采用的是特征图大小不变的卷积方式,结果的位置编码维度仍为(B、N2+1、D);步骤6:将步骤4位置编码结果与步骤5结果进行相加,由于采用的是逐元素相加的方式,最终结果维度仍为(B、N2+1、D);步骤7:搭建编码网络与步骤1至6一起作为一个深度自适应神经网络。2.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤1进行卷积核大小为P、步长为S、输入通道数为C、输出通道数为D的二维卷积,相当于对批次图像的每张图片按照图片长、宽两个维度进行切割,切割大小即是卷积核大小P,并对切割后产生的N
×
N个片段进行嵌入,使每个片段产生维度为1
×
D的嵌入向量。3.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤2,将原维度为(B、D、N、N)的特征图转换为维度为(B、D、N
×
N)的特征图,转换方式为将N个N维向量顺序拼接成一个N
×
N维向量。4.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤3,将原维度为(B,D,N
×
N)的特征图转换为维度为(B,N
×
N,D)的特征图,转换方式采用矩阵转置。5.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法,其特征在于所述步骤4,将维度为(B,1,D)的...

【专利技术属性】
技术研发人员:张萌吴瑞霞李国庆翁东鹏王九阳
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1