【技术实现步骤摘要】
本说明书涉及训练神经网络。
技术介绍
1、神经网络是采用一层或多层非线性单元来针对接收输入预测输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作对于在网络中下一层——即下一个隐藏层或输出层——的输入。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。
技术实现思路
1、本说明书描述了一种在一个或多个位置的一个或多个计算机上实现为计算机程序的系统,该系统训练视觉变换器神经网络(vit)。vit是一种神经网络,其处理包括图像的输入,即其处理图像的像素的强度值,以生成图像的输出,例如分类或回归输出,并且其包括一个或多个自注意力层和一个或多个输出层。
2、本说明书中描述的主题可以在特定实施例中实现,从而实现以下优点中的一个或多个。
3、一些神经网络,例如视觉变换器(vit),通过将图像切片成图块(patch)来将图像转换为序列。这些图块的大小控制着速度/精度的权衡,较小的图块以更大的计算成本导致更高的精度,但改变图块大小通常
...【技术保护点】
1.一种由一个或多个计算机执行来训练神经网络的方法,所述神经网络被配置为处理输入图像以生成所述输入图像的网络输出,所述方法包括,在多个训练步骤中的每个训练步骤处:
2.根据权利要求1所述的方法,其中,所述多个图像图块生成方案中的每个图像图块生成方案将所述输入图像划分为对应大小的不重叠图块,并且其中,对于所述多个图像图块生成方案中的每个图像图块生成方案,所述对应大小是不同的。
3.根据权利要求1所述的方法,其中,所述多个图像图块生成方案中的每个图像图块生成方案将所述输入图像划分为具有对应步幅的图块,并且其中,对于所述多个图像图块生成方案中的每个图
...【技术特征摘要】
1.一种由一个或多个计算机执行来训练神经网络的方法,所述神经网络被配置为处理输入图像以生成所述输入图像的网络输出,所述方法包括,在多个训练步骤中的每个训练步骤处:
2.根据权利要求1所述的方法,其中,所述多个图像图块生成方案中的每个图像图块生成方案将所述输入图像划分为对应大小的不重叠图块,并且其中,对于所述多个图像图块生成方案中的每个图像图块生成方案,所述对应大小是不同的。
3.根据权利要求1所述的方法,其中,所述多个图像图块生成方案中的每个图像图块生成方案将所述输入图像划分为具有对应步幅的图块,并且其中,对于所述多个图像图块生成方案中的每个图像图块生成方案,所述对应步幅是不同的。
4.根据权利要求1所述的方法,其中,所述多个训练图像中的每个训练图像的相应目标输出是基于该训练图像的标签而生成的真实值目标输出。
5.根据权利要求1所述的方法,其中,所述多个训练图像中的每个训练图像的相应目标输出是由经训练的教师神经网络通过处理该训练图像而生成的输出。
6.根据权利要求1所述的方法,进一步包括:
7.根据权利要求1所述的方法,其中,所述神经网络包括嵌入子网络、自注意力子网络和输出子网络,并且其中,使用所述神经网络处理所述多个图像图块以生成所述训练图像的网络输出包括:
8.根据权利要求7所述的方法,其中,使用所述嵌入子网络来处理所述多个图像图块以生成所述多个图像图块中的每个图像图块的相应嵌入包括:
9.根据权利要求8所述的方法,其中,所述嵌入子网络带有具有第一大小并且在所述多个图像图块生成方案之间共享的单个的图块嵌入权重集合,并且其中,应用所述图块嵌入权重集合包括:
10.根据权利要求9所述的方法,其中,训练所述神经网络包括调整在所述多个图像图块生成方案之间共享的所述图块嵌入权重集合。
11.根据权利要求8所述的方法,其中,使用所述嵌入子网络来处理所述多个图像图块以生成所述多个图...
【专利技术属性】
技术研发人员:卢卡斯·克劳斯·拜尔,帕维尔·伊斯梅洛夫,西蒙·科恩布利思,亚历山大·科列斯尼科夫,玛蒂尔德·卡龙,翟晓华,马蒂亚斯·约翰尼斯·洛伦茨·明德雷尔,易卜拉欣·阿拉卜杜勒穆赫辛,迈克尔·托比亚斯·钱嫩,菲利普·帕维蒂克,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。