视觉深度自适应神经网络的一维卷积位置编码方法技术

技术编号：28475820 阅读：146 留言：0更新日期：2021-05-15 21:44

本发明专利技术公开了一种视觉深度自适应神经网络的一维卷积位置编码方法，包括：1)将输入的批量图片分为N2个片段，图片通道数由C转换为D，并将宽高维度展开为1维；2)将通道维度与宽高维度进行置换；3)将2)结果与分类表征拼接，分类表征是一个可学习的向量；4)将3)结果进行一维卷积，将卷积结果作为位置编码，并将位置编码与3)结果进行相加；5)用1)

全部详细技术资料下载

【技术实现步骤摘要】
视觉深度自适应神经网络的一维卷积位置编码方法

[0001]本专利技术涉及人工智能领域，尤其是深度自适应(Transformer)神经网络位置编码方法。

技术介绍

[0002]Transformer模型是基于自注意力模块的一种深度神经网络模型，原本应用于自然语言处理领域。由于其强大的表达能力，研究者将Transformer应用在了计算机视觉任务，如图像识别、目标检测、语义分割等。Transformer神经网络模型在计算机视觉任务上展现了与卷积神经网络相匹敌甚至是比卷积神经网络更好的结果。
[0003]近年来谷歌的Ashish Vaswani等人提出ViT，将图片分成序列，再使用Transformer中的Embedded和堆叠的Encoder模块用于图像识别，在大数据集上预训练之后，在基准数据集上测试结果达到了与卷积神经网络相匹敌的性能；2021年依图科技提出首次全面超越ResNet，甚至轻量化版本优于MobileNet系列的T2T
‑
ViT模型，该模型提出了一种新颖的Tokens
‑
to
‑
Tokens机制，用于同时建模图像的局部结构信息与全局相关性，同时还借鉴了CNN架构设计思想引导ViT的骨干设计。2020年加州大学伯克利分校的Aravind Srinivas等人提出了BoTNet[13]，将Transformer中的多头注意力模块用于ResNet的Bottleneck结构中，用于代替原Bottleneck中的3
×
3卷积，并且只在最后...

【技术保护点】

【技术特征摘要】
1.一种视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于，该方法包括如下步骤：步骤1：将批次图像维度为(B、C、H、H)进行卷积，其中B表示图片张数，C表示每张图片的通道数，H表示图片的长和宽；卷积核大小为P、步长为S、输入通道数为C、输出通道数为D，卷积后的特征图维度为(B、D、N、N)，其中N＝H/P；步骤2：将步骤1结果的N、N两个维度展开为一个维度，转换后结果维度为(B、D、N2)；步骤3：对步骤2结果的D、N2两个维度进行置换，置换后结果的维度变为(B、N2、D)；步骤4：将分类表征与步骤3结果按照第二维度N2进行拼接操作，分类表征为维度(B、1、D)的随机初始化的向量，拼接后结果维度为(B、N2+1、D)；步骤5：对步骤4结果按照第三维度D进行一维卷积得到位置编码，一维卷积的卷积核大小为K，填充大小为K//2，由于采用的是特征图大小不变的卷积方式，结果的位置编码维度仍为(B、N2+1、D)；步骤6：将步骤4位置编码结果与步骤5结果进行相加，由于采用的是逐元素相加的方式，最终结果维度仍为(B、N2+1、D)；步骤7：搭建编码网络与步骤1至6一起作为一个深度自适应神经网络。2.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述步骤1进行卷积核大小为P、步长为S、输入通道数为C、输出通道数为D的二维卷积，相当于对批次图像的每张图片按照图片长、宽两个维度进行切割，切割大小即是卷积核大小P，并对切割后产生的N
×
N个片段进行嵌入，使每个片段产生维度为1
×
D的嵌入向量。3.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述步骤2，将原维度为(B、D、N、N)的特征图转换为维度为(B、D、N
×
N)的特征图，转换方式为将N个N维向量顺序拼接成一个N
×
N维向量。4.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述步骤3，将原维度为(B,D,N
×
N)的特征图转换为维度为(B,N
×
N,D)的特征图，转换方式采用矩阵转置。5.根据权利要求1所述的视觉深度自适应神经网络的一维卷积位置编码方法，其特征在于所述步骤4，将维度为(B,1,D)的...

【专利技术属性】
技术研发人员：张萌，吴瑞霞，李国庆，翁东鹏，王九阳，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人