训练具有可变图块大小的大规模视觉变换器神经网络制造技术

技术编号：40426380 阅读：26 留言：0更新日期：2024-02-20 22:46

本公开涉及训练具有可变图块大小的大规模视觉变换器神经网络。一种训练该神经网络的方法包括，在每个训练步骤处：获得多个训练图像；获得每个训练图像的相应目标输出；从多个图像图块生成方案中选择一图像图块生成方案，其中，每个图像图块生成方案生成给定输入图像的不同数量的图块，并且其中，每个图块包括给定输入图像的像素的相应子集；对于每个训练图像：通过将所选择的图像图块生成方案应用于训练图像来生成多个图像图块；以及使用神经网络处理该多个图像图块以生成网络输出；以及在目标函数上训练神经网络，该目标函数针对每个训练图像测量该训练图像的网络输出与该训练图像的目标网络输出之间的差。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及训练神经网络。

技术介绍

1、神经网络是采用一层或多层非线性单元来针对接收输入预测输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作对于在网络中下一层——即下一个隐藏层或输出层——的输入。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

1、本说明书描述了一种在一个或多个位置的一个或多个计算机上实现为计算机程序的系统，该系统训练视觉变换器神经网络(vit)。vit是一种神经网络，其处理包括图像的输入，即其处理图像的像素的强度值，以生成图像的输出，例如分类或回归输出，并且其包括一个或多个自注意力层和一个或多个输出层。

2、本说明书中描述的主题可以在特定实施例中实现，从而实现以下优点中的一个或多个。

3、一些神经网络，例如视觉变换器(vit)，通过将图像切片成图块(patch)来将图像转换为序列。这些图块的大小控制着速度/精度的权衡，较小的图块以更大的计算成本导致更高的精度，但改变图块大小通常...

【技术保护点】

1.一种由一个或多个计算机执行来训练神经网络的方法，所述神经网络被配置为处理输入图像以生成所述输入图像的网络输出，所述方法包括，在多个训练步骤中的每个训练步骤处：

2.根据权利要求1所述的方法，其中，所述多个图像图块生成方案中的每个图像图块生成方案将所述输入图像划分为对应大小的不重叠图块，并且其中，对于所述多个图像图块生成方案中的每个图像图块生成方案，所述对应大小是不同的。

3.根据权利要求1所述的方法，其中，所述多个图像图块生成方案中的每个图像图块生成方案将所述输入图像划分为具有对应步幅的图块，并且其中，对于所述多个图像图块生成方案中的每个图像图块生成方案，所述...

【技术特征摘要】

3.根据权利要求1所述的方法，其中，所述多个图像图块生成方案中的每个图像图块生成方案将所述输入图像划分为具有对应步幅的图块，并且其中，对于所述多个图像图块生成方案中的每个图像图块生成方案，所述对应步幅是不同的。

4.根据权利要求1所述的方法，其中，所述多个训练图像中的每个训练图像的相应目标输出是基于该训练图像的标签而生成的真实值目标输出。

5.根据权利要求1所述的方法，其中，所述多个训练图像中的每个训练图像的相应目标输出是由经训练的教师神经网络通过处理该训练图像而生成的输出。

6.根据权利要求1所述的方法，进一步包括：

7.根据权利要求1所述的方法，其中，所述神经网络包括嵌入子网络、自注意力子网络和输出子网络，并且其中，使用所述神经网络处理所述多个图像图块以生成所述训练图像的网络输出包括：

8.根据权利要求7所述的方法，其中，使用所述嵌入子网络来处理所述多个图像图块以生成所述多个图像图块中的每个图像图块的相应嵌入包括：

9.根据权利要求8所述的方法，其中，所述嵌入子网络带有具有第一大小并且在所述多个图像图块生成方案之间共享的单个的图块嵌入权重集合，并且其中，应用所述图块嵌入权重集合包括：

10.根据权利要求9所述的方法，其中，训练所述神经网络包括调整在所述多个图像图块生成方案之间共享的所述图块嵌入权重集合。

11.根据权利要求8所述的方法，其中，使用所述嵌入子网络来处理所述多个图像图块以生成所述多个图...

【专利技术属性】
技术研发人员：卢卡斯·克劳斯·拜尔，帕维尔·伊斯梅洛夫，西蒙·科恩布利思，亚历山大·科列斯尼科夫，玛蒂尔德·卡龙，翟晓华，马蒂亚斯·约翰尼斯·洛伦茨·明德雷尔，易卜拉欣·阿拉卜杜勒穆赫辛，迈克尔·托比亚斯·钱嫩，菲利普·帕维蒂克，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人