用于神经网络的复合模型缩放制造技术

技术编号:30135067 阅读:13 留言:0更新日期:2021-09-23 14:20
描述了一种用于确定神经网络的为了执行特定机器学习任务的最终架构的方法。该方法包括:接收用于神经网络的基线架构,其中该基线架构具有网络宽度尺寸、网络深度尺寸以及分辨率尺寸;接收定义复合系数的数据,该复合系数控制用于缩放基线架构的额外计算资源;执行搜索以确定基线宽度系数、基线深度系数和基线分辨率系数,这些系数指定如何将额外计算资源分别指配给基线架构的网络宽度尺寸、网络深度尺寸以及分辨率尺寸;基于基线宽度系数、基线深度系数、基线分辨率系数以及复合系数来确定宽度系数、深度系数以及分辨率系数;以及基于对应的宽度系数、深度系数以及分辨率系数来生成缩放基线架构的网络宽度尺寸、网络深度尺寸以及分辨率尺寸的最终架构。及分辨率尺寸的最终架构。

【技术实现步骤摘要】
【国外来华专利技术】用于神经网络的复合模型缩放
[0001]相关申请的交叉引用
[0002]本申请要求于2019年1月23日提交的美国临时申请序列号62/796,034的优先权。在先申请的公开内容被认为是本申请的公开内容的一部分并且通过引用并入本申请的公开内容中。

技术介绍

[0003]本说明书涉及确定卷积神经网络的架构。
[0004]神经网络是采用一层或多层非线性单元来针对接收到的输入预测输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即下一个隐藏层或输出层)的输入。网络的每层根据相应参数集的当前值从接收到的输入生成输出。
[0005]一些神经网络是递归神经网络。递归神经网络是接收输入序列并且从该输入序列生成输出序列的神经网络。特别地,递归神经网络可以在计算当前时间步的输出时使用来自先前时间步的网络的内部状态的一些或全部。递归神经网络的示例是包括一个或多个长短期记忆(LSTM)的记忆块的LSTM神经网络。每个LSTM记忆块可以包括一个或多个单元,该一个或多个单元各自包括输入门、遗忘门以及输出门,这允许该单元存储该单元的先前状态,例如用于生成当前激活或被提供给LSTM神经网络的其它组件。

技术实现思路

[0006]本说明书描述一种被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统,该系统根据基线架构来确定神经网络的最终架构。如下所述,基于最终架构的目标计算资源使用来确定最终架构。这样,系统可以确定适合可供最终架构使用的低级计算资源(例如,每秒浮点运算的数目,FLOPS)的最终架构。此外,它可以以比可能需要大量超参数调整的常规方法更有效的方式来这样做。神经网络被配置成执行特定机器学习任务,诸如但不限于图像处理(例如,图像分类)。
[0007]本说明书中描述的主题可以在特定实施例中实现,以便实现以下优点中的一个或多个。卷积神经网络通常以固定计算成本开发,然后如果给定更多资源,则为了更好的准确性而扩大到更大的网络。在本说明书中描述的模型缩放技术使用简单但高效的复合系数,用于在给定目标资源约束的情况下将基线神经网络模型缩放至目标模型,同时维持模型效率。常规方法在缩放时任意地增加网络宽度或深度或分辨率,这导致低准确度和效率,并且由于平衡这三个因素所需的超参数调整而使得放大神经网络模型的过程低效且计算上昂贵。相反,所描述的技术使用复合系数来线性地缩放基线模型的网络宽度、深度以及分辨率,从而避免花费大量计算资源来进行超参数调整。此外,本文描述的模型缩放技术允许基线模型非常有效地放大,从而产生超过现有技术的准确度的更大的模型,同时具有比先前现有技术模型更少的参数。同时,这些较大的模型可以使用比先前现有技术模型所使用的运算更少的运算来执行特定机器学习任务,并且因此它们在训练和推断上更快。
[0008]在附图和下述描述中,阐述本说明书的主题的一个或多个实施例的细节。从说明书、附图和权利要求,该主题的其它特征、方面和优点将变得显而易见。
附图说明
[0009]图1示出了用于确定神经网络的为了执行特定机器学习任务的最终架构的示例神经架构搜索系统。
[0010]图2是用于确定神经网络的为了执行特定机器学习任务的最终架构的示例过程的流程图。
[0011]图3示出了神经网络的示例基线架构。
[0012]图4示出了神经网络的另一示例基线架构。
[0013]在各个附图中,相同的附图标记和名称表示相同的元件。
具体实施方式
[0014]本说明书描述了一种神经架构搜索系统,该神经架构搜索系统被实现为一个或多个位置中的一个或多个计算机上的计算机程序,该计算机程序根据基线架构来确定神经网络的最终架构。神经网络被配置成执行特定机器学习任务。
[0015]通常,神经网络被配置成接收网络输入并且处理该网络输入以针对该输入生成网络输出。
[0016]在一些情况下,神经网络是卷积神经网络,该卷积神经网络被配置成接收输入图像并且处理该输入图像以针对该输入图像生成网络输出,即,执行某种图像处理任务。
[0017]例如,任务可以是图像分类,并且由神经网络针对给定图像所生成的输出可以是对象类别集合中的每一个的分值,其中每个分值表示该图像包含属于该类别的对象的图像的估计可能性。
[0018]作为另一示例,任务可以是图像嵌入生成,并且由神经网络所生成的输出可以是输入图像的数值嵌入。例如,针对相应输入图像所生成的嵌入之间的嵌入空间中的接近度可以表示这些图像之间的相似性。
[0019]作为又一示例,任务可以是对象检测,并且由神经网络所生成的输出可以标识在该输入图像中在此处描绘特定类型的对象的位置。
[0020]在一些其它情况下,任务可以是视频分类,并且神经网络被配置成接收视频或视频的一部分作为输入,并且生成确定该输入视频或视频部分涉及什么主题的输出。
[0021]在一些其它情况下,任务可以是语音识别,并且神经网络被配置成接收音频数据作为输入,并且生成针对该给定口语话语确定该话语表示的一个或多个词语的输出。
[0022]在一些其它情况下,任务可以是文本分类,并且神经网络被配置成接收输入文本片段并且生成确定该输入文本片段涉及什么主题的输出。
[0023]图1示出了示例神经架构搜索系统100,该示例神经架构搜索系统100被配置成根据基线架构确定神经网络的最终架构,该神经网络被配置成执行特定机器学习任务。神经架构搜索系统100是被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,其中,可以实现下文所述的系统、组件和技术。
[0024]通常,神经架构搜索系统100是获得神经网络的基线架构102和定义复合系数103
的输入数据104的系统,其中该复合系数控制用于缩放基线架构的额外计算资源,使用简单但高效的复合系数来均匀地缩放基线架构102的所有尺寸以生成用于神经网络的最终架构126以执行特定机器学习任务。
[0025]系统100可以以各种方式中的任何一种来接收基线架构102和输入数据104。例如,系统100可以例如使用系统100可用的应用编程接口(API)通过数据通信网络从系统的远程用户接收基线架构102和目标资源使用数据104作为上传。作为另一示例,系统100可以从用户接收输入,该输入指定已经由系统100维护的哪些数据应当用作标识基线架构102的数据以及哪些数据应当用作目标资源使用数据104。
[0026]输入数据104定义了复合系数103,该复合系数103控制用于缩放基线架构的额外计算资源。换句话说,与基线架构所使用的资源相比,复合系数103控制可以由缩放的最终架构使用的计算资源量。在一些情况下,系统100可以基于用户的约束来生成复合系数值。例如,如果用户想要使基线架构(102)大N倍,则系统可以生成复合系数φ=log2(N)。例如,如果用户想要将基线架构扩大4倍,则φ=2。如果用户想要将基线模型扩大32倍,则φ=5。
[0027]输入数据10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种确定神经网络的最终架构以执行特定机器学习任务的计算机实现的方法,所述计算机实现的方法包括:接收所述神经网络的基线架构,其中,所述基线架构已经被训练以执行所述特定机器学习任务,并且其中,所述基线架构具有网络宽度尺寸、网络深度尺寸以及分辨率尺寸;接收定义复合系数的数据,所述复合系数控制用于缩放所述基线架构的额外计算资源;执行搜索以确定基线宽度系数、基线深度系数以及基线分辨率系数,所述基线宽度系数、基线深度系数以及基线分辨率系数指定如何将所述额外计算资源分别指配给所述基线架构的所述网络宽度尺寸、所述网络深度尺寸以及所述分辨率尺寸;基于所述基线宽度系数、所述基线深度系数、所述基线分辨率系数以及所述复合系数来确定宽度系数、深度系数以及分辨率系数;以及基于对应的宽度系数、深度系数以及分辨率系数来生成缩放所述基线架构的所述网络宽度尺寸、所述网络深度尺寸和所述分辨率尺寸的所述最终架构。2.根据权利要求1所述的方法,其中,所述基线架构具有多个网络级,并且所述多个网络级中的每一个具有多个神经网络层。3.根据权利要求2所述的方法,其中,所述基线架构的每个网络级中的所述多个神经网络层共享相同架构。4.根据权利要求2或3中的任一项所述的方法,其中,所述基线架构的所述网络深度尺寸是所述基线架构的所述多个网络级中的层的数目的集合。5.根据权利要求2至4中的任一项所述的方法,其中,所述基线架构中的每个神经网络层被配置成接收来自前一层的输入张量,并且针对所述输入张量生成输出张量,所述输出张量作为输入被馈送到下一神经网络层,其中,所述输入张量具有高度尺寸、宽度尺寸以及通道尺寸,所述通道尺寸指定所述输入张量中的通道的数目。6.根据权利要求5所述的方法,其中,所述基线架构的所述网络宽度尺寸是与到所述基线架构的所述多个神经网络层的输入张量相关联的输入通道的数目的集合。7.根据权利要求5或6中的任一项所述的方法,其中,所述基线架构的所述分辨率尺寸是到所述基线架构的所述多个神经网络层的输入张量的高度尺寸和宽度尺寸的集合。8.根据权利要求1至7中的任一项所述的方法,其中,基于所述基线宽度系数、所述基线深度系数、所述基线分辨率系数以及所述复合系数来确定所述宽度系数、所述深度系数以及所述分辨率系数包括:基于所述复合系数和所述基线宽度系数来生成所述宽度系数;基于所述复合系数和所述基线深度系数来生成所述深度...

【专利技术属性】
技术研发人员:谭明星
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1