【技术实现步骤摘要】
【国外来华专利技术】超参数神经网络集成
[0001]相关申请的交叉引用
[0002]本申请要求于2020年6月5日提交的美国临时申请No.63/035,614的优先权,其全部内容并入本文。
[0003]本说明书涉及训练神经网络。
技术介绍
[0004]神经网络是采用一层或多层非线性单元的机器学习模型来预测接收到的输入的输出。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。
技术实现思路
[0005]本说明书描述了实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统,其生成多个神经网络的集成(ensemble)以执行特定机器学习任务。
[0006]能够实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。
[0007]用于生成神经网络的集成的常规技术通过使用不同的参数初始化训练神经网络,即,通过将集成中的神经网络的参数的参数值初始化为不同的初始值,来确保由集成中的神经网络生成的预测的多样性。然而,所描述的技术改变了用于神经网络的训练的参数和超参数的初始化两者。通过使用所描述的技术不仅在权重上而且在超参数上生成集成,所生成的集成能够在由集成生成的预测的准确性方面以及在提供用于量化由集成生成的预测的不确定性的度量方面胜过常规集成。
[0008]此外,通过以还确保所生成的批量集成之中的超参数多样性的方式生成计算上有效的批量集成,所描述的 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种训练包括K个神经网络的集成以执行机器学习任务的方法,其中,K是大于1的整数,其中,所述K个神经网络中的每一个包括具有相应参数的多个神经网络层,其中,所述多个神经网络层包括第一神经网络层,对于所述K个神经网络中的每一个,所述第一神经网络层具有:(i)在所述集成中的所有K个神经网络之间共享的共享参数,(ii)特定于所述神经网络的特定参数,以及(iii)包括第一嵌入参数的嵌入参数,所述第一嵌入参数将当前超参数映射到用于所述共享参数的修改器,其中,所述方法包括:针对所述K个神经网络中的每一个维持相应的超参数分布参数集,所述相应的超参数分布参数集定义用于所述神经网络的训练的超参数上的分布;以及通过重复地执行以下操作来训练所述K个神经网络:对于所述K个神经网络中的每一个,从由用于所述神经网络的所述相应的超参数分布参数集定义的所述分布中采样超参数;获得多个训练示例;对于所述K个神经网络中的每一个,根据针对所述神经网络采样的超参数,在所述多个训练示例上训练所述神经网络,以确定对所述第一神经网络层的至少所述共享参数、所述特定参数和所述嵌入参数的更新;以及将针对所述K个神经网络中的每一个确定的更新应用于所述共享参数。2.根据权利要求1所述的方法,其中,所述嵌入参数在所述集成中的神经网络之间共享。3.根据权利要求1或2中的任一项所述的方法,所述操作进一步包括:对于所述K个神经网络中的每一个,将所述更新应用于所述神经网络的所述第一神经网络层的所述特定参数。4.根据权利要求1
‑
3中的任一项所述的方法,其中,在所述训练示例上训练所述神经网络中的每一个包括训练所述神经网络中的每一个以最小化损失函数,所述损失函数针对每个神经网络测量由所述神经网络针对给定训练示例生成的网络输出与针对所述给定训练示例的目标输出之间的损失。5.根据权利要求1
‑
3中的任一项所述的方法,其中,在所述训练示例上训练所述神经网络中的每一个包括训练所述神经网络中的每一个以最小化损失函数,所述损失函数测量从由所述K个神经网络针对给定训练示例生成的网络输出生成的最终输出与针对所述给定训练示例的目标输出之间的损失。6.根据权利要求1
‑
5中的任一项所述的方法,其中,对于所述K个神经网络中的每一个,根据所采样的超参数在所述多个训练示例上训练所述神经网络包括将所述嵌入参数应用于所述采样的超参数以生成用于所述共享参数的所述修改器。7.根据权利要求1
‑
6中的任一项所述的方法,所述操作进一步包括:获得多个验证示例;以及基于所述验证示例上的所述K个神经网络的性能来更新所述相应的超参数分布参数
集。8.根据权利要求1
‑
7中的任一项所述的方法,其中,所述特定参数包括修改所述共享参数的第一特定参数和定义用于所述第一神经网络层的特定偏置向量的第二特定参数。9.根据权利要求8所述的方法,其中,所述嵌入参数进一步包括第二嵌入参数,所述第二嵌入参数将当前超参数映射到用于所述特定偏置向量的修改器。10.一种训练包括K个神经网络的集成以执行机器学习任务的方法,其中,K是大于1的整数,并且其中,所述方法包括:识别用于训练具有执行所述机器学习任务的参数的神经网络的N个不同超参数的集合,其中,N是大于1的整数;以及对于所述N个不同超参数的每一个,通过下述操作,生成第一候选经训练的神经网络的集合:针对所述神经网络的参数的值,选择多个不同的初始化;以及对于所述不同初始化的每一个,利用(i)所述不同超参数和(ii)...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。