用于神经网络的复合模型缩放制造技术

技术编号：30135067 阅读：13 留言：0更新日期：2021-09-23 14:20

描述了一种用于确定神经网络的为了执行特定机器学习任务的最终架构的方法。该方法包括：接收用于神经网络的基线架构，其中该基线架构具有网络宽度尺寸、网络深度尺寸以及分辨率尺寸；接收定义复合系数的数据，该复合系数控制用于缩放基线架构的额外计算资源；执行搜索以确定基线宽度系数、基线深度系数和基线分辨率系数，这些系数指定如何将额外计算资源分别指配给基线架构的网络宽度尺寸、网络深度尺寸以及分辨率尺寸；基于基线宽度系数、基线深度系数、基线分辨率系数以及复合系数来确定宽度系数、深度系数以及分辨率系数；以及基于对应的宽度系数、深度系数以及分辨率系数来生成缩放基线架构的网络宽度尺寸、网络深度尺寸以及分辨率尺寸的最终架构。及分辨率尺寸的最终架构。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于神经网络的复合模型缩放
[0001]相关申请的交叉引用
[0002]本申请要求于2019年1月23日提交的美国临时申请序列号62/796,034的优先权。在先申请的公开内容被认为是本申请的公开内容的一部分并且通过引用并入本申请的公开内容中。

技术介绍

[0003]本说明书涉及确定卷积神经网络的架构。
[0004]神经网络是采用一层或多层非线性单元来针对接收到的输入预测输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即下一个隐藏层或输出层)的输入。网络的每层根据相应参数集的当前值从接收到的输入生成输出。
[0005]一些神经网络是递归神经网络。递归神经网络是接收输入序列并且从该输入序列生成输出序列的神经网络。特别地，递归神经网络可以在计算当前时间步的输出时使用来自先前时间步的网络的内部状态的一些或全部。递归神经网络的示例是包括一个或多个长短期记忆(LSTM)的记忆块的LSTM神经网络。每个LSTM记忆块可以包括一个或多个单元，该一个或多个单元各自包括输入门、遗忘门以及输出门，这允许该单元存储该单元的先前状态，例如用于生成当前激活或被提供给LSTM神经网络的其它组件。

技术实现思路

[0006]本说明书描述一种被实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统，该系统根据基线架构来确定神经网络的最终架构。如下所述，基于最终架构的目标计算资源使用来确定最终架构。这样，系统可以确定适合可供最终架构使用的低级计算资源(例如，每秒浮...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种确定神经网络的最终架构以执行特定机器学习任务的计算机实现的方法，所述计算机实现的方法包括：接收所述神经网络的基线架构，其中，所述基线架构已经被训练以执行所述特定机器学习任务，并且其中，所述基线架构具有网络宽度尺寸、网络深度尺寸以及分辨率尺寸；接收定义复合系数的数据，所述复合系数控制用于缩放所述基线架构的额外计算资源；执行搜索以确定基线宽度系数、基线深度系数以及基线分辨率系数，所述基线宽度系数、基线深度系数以及基线分辨率系数指定如何将所述额外计算资源分别指配给所述基线架构的所述网络宽度尺寸、所述网络深度尺寸以及所述分辨率尺寸；基于所述基线宽度系数、所述基线深度系数、所述基线分辨率系数以及所述复合系数来确定宽度系数、深度系数以及分辨率系数；以及基于对应的宽度系数、深度系数以及分辨率系数来生成缩放所述基线架构的所述网络宽度尺寸、所述网络深度尺寸和所述分辨率尺寸的所述最终架构。2.根据权利要求1所述的方法，其中，所述基线架构具有多个网络级，并且所述多个网络级中的每一个具有多个神经网络层。3.根据权利要求2所述的方法，其中，所述基线架构的每个网络级中的所述多个神经网络层共享相同架构。4.根据权利要求2或3中的任一项所述的方法，其中，所述基线架构的所述网络深度尺寸是所述基线架构的所述多个网络级中的层的数目的集合。5.根据权利要求2至4中的任一项所述的方法，其中，所述基线架构中的每个神经网络层被配置成接收来自前一层的输入张量，并且针对所述输入张量生成输出张量，所述输出张量作为输入被馈送到下一神经网络层，其中，所述输入张量具有高度尺寸、宽度尺寸以及通道尺寸，所述通道尺寸指定所述输入张量中的通道的数目。6.根据权利要求5所述的方法，其中，所述基线架构的所述网络宽度尺寸是与到所述基线架构的所述多个神经网络层的输入张量相关联的输入通道的数目的集合。7.根据权利要求5或6中的任一项所述的方法，其中，所述基线架构的所述分辨率尺寸是到所述基线架构的所述多个神经网络层的输入张量的高度尺寸和宽度尺寸的集合。8.根据权利要求1至7中的任一项所述的方法，其中，基于所述基线宽度系数、所述基线深度系数、所述基线分辨率系数以及所述复合系数来确定所述宽度系数、所述深度系数以及所述分辨率系数包括：基于所述复合系数和所述基线宽度系数来生成所述宽度系数；基于所述复合系数和所述基线深度系数来生成所述深度...

【专利技术属性】
技术研发人员：谭明星，国，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人