超参数神经网络集成制造技术

技术编号:36070456 阅读:13 留言:0更新日期:2022-12-24 10:39
包括在计算机存储介质上编码的计算机程序的用于生成神经网络集成的方法、系统和装置。具体地,使用彼此不同的超参数来训练集成中的神经网络。中的神经网络。中的神经网络。

【技术实现步骤摘要】
【国外来华专利技术】超参数神经网络集成
[0001]相关申请的交叉引用
[0002]本申请要求于2020年6月5日提交的美国临时申请No.63/035,614的优先权,其全部内容并入本文。


[0003]本说明书涉及训练神经网络。

技术介绍

[0004]神经网络是采用一层或多层非线性单元的机器学习模型来预测接收到的输入的输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。

技术实现思路

[0005]本说明书描述了实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统,其生成多个神经网络的集成(ensemble)以执行特定机器学习任务。
[0006]能够实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
[0007]用于生成神经网络的集成的常规技术通过使用不同的参数初始化训练神经网络,即,通过将集成中的神经网络的参数的参数值初始化为不同的初始值,来确保由集成中的神经网络生成的预测的多样性。然而,所描述的技术改变了用于神经网络的训练的参数和超参数的初始化两者。通过使用所描述的技术不仅在权重上而且在超参数上生成集成,所生成的集成能够在由集成生成的预测的准确性方面以及在提供用于量化由集成生成的预测的不确定性的度量方面胜过常规集成。
[0008]此外,通过以还确保所生成的批量集成之中的超参数多样性的方式生成计算上有效的批量集成,所描述的技术能够以计算上有效的方式提高预测质量和不确定性量化。
[0009]例如,在各种示例实施方式中,所生成的K个神经网络的集成中的神经网络共享至少一些参数。由于这样的共享参数即使被多个神经网络使用也仅需要存储一次,因此所生成的集成适于存储器高效的存储。具体地,由于在K个神经网络的集成中的神经网络之间共享参数,因此存储K个神经网络的集成所需的存储器的量能够与存储K个神经网络的集成的受约束的存储器空间中可用的存储器相同或更少。此外,在K个神经网络共享参数的一些实施方式中,能够针对整批多个输入并行地生成K个神经网络中的每一个的输出,从而相对于常规技术减少针对集成生成预测的延迟。
[0010]在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。主题的其他特征、方面和优点根据说明书、附图和权利要求书将变得显而易见。
附图说明
[0011]图1示出了示例训练系统。
[0012]图2是用于生成超深度集成的示例过程的流程图。
[0013]图3是用于生成超批量集成的示例过程的流程图。
[0014]图4示出了指示超深度集成和超批量集成在各种机器学习任务上的性能的图。
[0015]各个附图中相同的附图标记和名称指示相同的元件。
具体实施方式
[0016]图1示出了示例训练系统100。训练系统100是实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,其中,能够实现下面描述的系统、组件和技术。
[0017]训练系统100使用训练数据集102和验证数据集104生成已经被训练以执行特定机器学习任务的多个经训练的神经网络120A

K的集成130。
[0018]训练数据集102包括多个训练示例,并且对于每个训练示例,包括相应的目标输出。对于给定训练示例的目标输出是应当通过在对应的训练输入上执行特定机器学习任务而被生成的输出。
[0019]验证数据集104还包括多个示例,并且对于每个示例,包括相应的目标输出,但是通常将包括与训练数据集102中的示例不同的示例。验证数据集104中的示例也将被称为“验证示例”。
[0020]集成130中的每个神经网络120A

K被配置为处理用于特定任务的网络输入并生成用于特定任务的输出。
[0021]由于系统生成集成130并训练集成130中的神经网络120的方式,集成130中的每个经训练的神经网络120通常将具有与集成130中的其他经训练的神经网络120不同的参数值。因此,神经网络120A

K中的不同神经网络能够针对用于特定机器学习任务的不同网络输入生成不同的网络输出。
[0022]能够训练集成130中的神经网络120A

K来执行任何种类的机器学习任务,即,能够被配置为接收任何种类的数字数据输入并基于该输入生成任何种类的得分、分类或回归输出。
[0023]在一些情况下,每个神经网络是被配置为执行图像处理任务,即,接收输入图像,并且处理输入图像,即,处理用于输入图像的像素的强度值,以生成用于输入图像的网络输出的神经网络。例如,任务可以是图像分类,并且由神经网络针对给定图像生成的输出可以是对象类别集中的每一个的得分,其中,每个得分表示图像包含属于该类别的对象的图像的估计可能性。作为另一示例,任务能够是图像嵌入生成,并且由神经网络生成的输出能够是输入图像的数字嵌入。作为又一示例,任务能够是对象检测,并且由神经网络生成的输出能够识别输入图像中描绘特定类型的对象的位置。作为又一示例,任务能够是图像分割,并且由神经网络生成的输出能够将输入图像的每个像素分配给来自类别集中的类别。
[0024]作为另一示例,如果神经网络的输入是互联网资源(例如,网页)、文档或文档的部分或从互联网资源、文档或文档的部分提取的特征,则任务能够是对资源或文档进行分类,即,由神经网络针对给定互联网资源、文档或文档的部分生成的输出可以是用于主题集中
的每个主题的得分,其中,每个得分表示互联网资源、文档或文档的部分与主题有关的估计可能性。
[0025]作为另一示例,如果神经网络的输入是特定广告的印象上下文的特征,则由神经网络生成的输出可以是表示特定广告将被点击的估计可能性的得分。
[0026]作为另一示例,如果神经网络的输入是针对用户的个性化推荐的特征,例如,表征推荐的上下文的特征,例如,表征用户采取的先前动作的特征,则由神经网络生成的输出可以是内容项集合中的每一个的得分,其中,每个得分表示用户将对被推荐的内容项做出有利响应的估计可能性。
[0027]作为另一示例,如果神经网络的输入是一种语言的文本的序列,由神经网络生成的输出可以是另一种语言的文本片段集合中的每一个文本片段的得分,其中,每个得分表示另一种语言的文本片段是输入文本到另一种语言的适当翻译的估计可能性。
[0028]作为另一示例,任务可以是音频处理任务。例如,如果神经网络的输入是表示口头话语的序列,则由神经网络生成的输出可以是用于文本片段集合中的每一个文本片段的,每个得分表示该文本片段是话语的正确转录的估计可能性。作为另一示例,如果神经网络的输入是表示口头话语的序列,则由神经网络生成的输出能够指示在话语中是否说出特定单词或短语(“热词”)。作为另一示例,如果对神经网络的输入是表示口头话语的序列,则由神经网络生成的输出能够识别说出话语的自然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练包括K个神经网络的集成以执行机器学习任务的方法,其中,K是大于1的整数,其中,所述K个神经网络中的每一个包括具有相应参数的多个神经网络层,其中,所述多个神经网络层包括第一神经网络层,对于所述K个神经网络中的每一个,所述第一神经网络层具有:(i)在所述集成中的所有K个神经网络之间共享的共享参数,(ii)特定于所述神经网络的特定参数,以及(iii)包括第一嵌入参数的嵌入参数,所述第一嵌入参数将当前超参数映射到用于所述共享参数的修改器,其中,所述方法包括:针对所述K个神经网络中的每一个维持相应的超参数分布参数集,所述相应的超参数分布参数集定义用于所述神经网络的训练的超参数上的分布;以及通过重复地执行以下操作来训练所述K个神经网络:对于所述K个神经网络中的每一个,从由用于所述神经网络的所述相应的超参数分布参数集定义的所述分布中采样超参数;获得多个训练示例;对于所述K个神经网络中的每一个,根据针对所述神经网络采样的超参数,在所述多个训练示例上训练所述神经网络,以确定对所述第一神经网络层的至少所述共享参数、所述特定参数和所述嵌入参数的更新;以及将针对所述K个神经网络中的每一个确定的更新应用于所述共享参数。2.根据权利要求1所述的方法,其中,所述嵌入参数在所述集成中的神经网络之间共享。3.根据权利要求1或2中的任一项所述的方法,所述操作进一步包括:对于所述K个神经网络中的每一个,将所述更新应用于所述神经网络的所述第一神经网络层的所述特定参数。4.根据权利要求1

3中的任一项所述的方法,其中,在所述训练示例上训练所述神经网络中的每一个包括训练所述神经网络中的每一个以最小化损失函数,所述损失函数针对每个神经网络测量由所述神经网络针对给定训练示例生成的网络输出与针对所述给定训练示例的目标输出之间的损失。5.根据权利要求1

3中的任一项所述的方法,其中,在所述训练示例上训练所述神经网络中的每一个包括训练所述神经网络中的每一个以最小化损失函数,所述损失函数测量从由所述K个神经网络针对给定训练示例生成的网络输出生成的最终输出与针对所述给定训练示例的目标输出之间的损失。6.根据权利要求1

5中的任一项所述的方法,其中,对于所述K个神经网络中的每一个,根据所采样的超参数在所述多个训练示例上训练所述神经网络包括将所述嵌入参数应用于所述采样的超参数以生成用于所述共享参数的所述修改器。7.根据权利要求1

6中的任一项所述的方法,所述操作进一步包括:获得多个验证示例;以及基于所述验证示例上的所述K个神经网络的性能来更新所述相应的超参数分布参数
集。8.根据权利要求1

7中的任一项所述的方法,其中,所述特定参数包括修改所述共享参数的第一特定参数和定义用于所述第一神经网络层的特定偏置向量的第二特定参数。9.根据权利要求8所述的方法,其中,所述嵌入参数进一步包括第二嵌入参数,所述第二嵌入参数将当前超参数映射到用于所述特定偏置向量的修改器。10.一种训练包括K个神经网络的集成以执行机器学习任务的方法,其中,K是大于1的整数,并且其中,所述方法包括:识别用于训练具有执行所述机器学习任务的参数的神经网络的N个不同超参数的集合,其中,N是大于1的整数;以及对于所述N个不同超参数的每一个,通过下述操作,生成第一候选经训练的神经网络的集合:针对所述神经网络的参数的值,选择多个不同的初始化;以及对于所述不同初始化的每一个,利用(i)所述不同超参数和(ii)...

【专利技术属性】
技术研发人员:鲁道夫
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1