训练大规模视觉Transformer神经网络制造技术

技术编号：34461365 阅读：15 留言：0更新日期：2022-08-06 17:24

本公开涉及用于训练大规模视觉Transformer(ViT)神经网络的方法、系统以及包括在计算机存储介质上编码的计算机程序的装置。置。置。

全部详细技术资料下载

【技术实现步骤摘要】
训练大规模视觉Transformer神经网络

[0001]本说明书涉及使用神经网络来处理图像。

技术介绍

[0002]神经网络是采用一层或多层非线性单元来针对接收到的输入预测输出的机器学习模型。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层即下一隐藏层或输出层的输入。网络的每个层依照相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0003]本说明书描述一种作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统，该系统训练视觉Transformer神经网络(ViT)。ViT是这样的神经网络，该神经网络处理包括图像的输入，即处理图像的像素的强度值，以生成图像的输出，例如分类或回归输出，并且包括一个或多个自注意力层和一个或多个输出层。
[0004]能够在特定实施例中实现本说明书中描述的主题以便实现以下优点中的一个或多个。
[0005]本说明书描述对ViT的架构、训练或两者的修改。所描述的修改((i)解耦权重衰减值，(ii)从所有输出元素生成分类输出，而不是在输入序列中包括额外位置，从该额外位置生成分类输出但该额外位置不对应于图像中的补片中的任一个的，以及(iii)在训练期间按降低的精度存储动量值)允许系统预训练ViT神经网络，该ViT神经网络然后在各种下游任务中的任一个上实现目前技术水平性能。特别地，当采用至少修改(i)和(ii)时，ViT能够例如通过使用更大的ViT并且在不引起计算资源消耗的过大增加的情况下在下游分类任务上实现显...

【技术保护点】

【技术特征摘要】
1.一种训练视觉Transformer神经网络的方法，其中所述视觉Transformer神经网络被配置成：获得图像的多个图像补片，其中，每个图像补片包括所述图像的像素的不同子集；处理所述多个图像补片以生成输入序列，所述输入序列在多个位置的每一个位置处包括相应输入元素，其中，所述输入序列包括与所述多个图像补片中的每一个相对应的相应输入元素；通过多个自注意力神经网络块来处理所述输入序列以生成输出序列，所述输出序列在所述多个位置的每一个位置处包括相应输出元素；以及使用一个或多个输出层来处理所述输出序列中的一个或多个输出元素以生成所述图像的分类输出，并且其中所述方法包括：获得第一训练数据，所述第一训练数据包括多个训练图像和每个训练图像的相应目标分类输出；以及在所述第一训练数据上训练所述视觉Transformer神经网络，所述训练包括：在所述训练期间，使用第一权重衰减值来更新所述一个或多个输出层的参数，以及使用第二权重衰减值来更新所述多个自注意力神经网络块的参数，其中，所述第一权重衰减值高于所述第二权重衰减值。2.根据权利要求1所述的方法，其中，所述第一权重衰减值大于或等于0.3，而所述第二权重衰减值小于0.3。3.根据权利要求2所述的方法，其中，所述第一权重衰减值大于或等于1.0。4.根据权利要求3所述的方法，其中，所述第一权重衰减值大于或等于3.0。5.根据权利要求4所述的方法，其中，所述第一权重衰减值大于或等于10.0。6.根据权利要求2所述的方法，其中，所述第二权重衰减值小于或等于0.1。7.根据权利要求6所述的方法，其中，所述第二权重衰减值小于或等于0.01。8.根据权利要求1所述的方法，其中，所述输入序列中的每个输入元素对应于所述多个图像补片中的相应一个，并且其中，所述一个或多个输出层包括：聚合层块，所述聚合层块被配置成聚合所有所述输出元素以生成聚合输出元素；以及一个或多个最后输出层，所述一个或多个最后输出层被配置成从所述聚合输出元素生成所述分类输出。9.根据权利要求8所述的方法，其中，所述一个...

【专利技术属性】
技术研发人员：卢卡斯，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人