具有任务特定路径的多任务神经网络制造技术

技术编号:21959016 阅读:21 留言:0更新日期:2019-08-24 22:19
用于使用多任务神经网络的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。一种方法包括接收第一网络输入以及识别要在第一网络输入上执行的第一机器学习任务的数据;选择特定于第一机器学习任务的通过超神经网络中多个层的路径,所述路径针对每一层指定层中的在执行第一机器学习任务时被指派为活动的模块化神经网络的真子集;并且使超神经网络使用(i)对于每一层,层中的被所选择的路径指派为活动的模块化神经网络,以及(ii)对应于所识别的第一机器学习任务的一个或多个输出层的集合来处理第一网络输入。

Multitask Neural Network with Task-specific Path

【技术实现步骤摘要】
【国外来华专利技术】具有任务特定路径的多任务神经网络
技术介绍
本说明书涉及神经网络。神经网络是使用一个或多个非线性单元层来预测对于接收到的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每一个隐藏层的输出被用作对网络中下一层——即下一个隐藏层或输出层——的输入。网络中的每一层根据相应的参数集合的当前值从接收到的输入生成输出。一些神经网络是循环神经网络。循环神经网络是接收输入序列并且根据输入序列生成输出序列的神经网络。特别地,循环神经网络可以将来自先前时间步骤的网络的一些或全部内部状态用于在当前时间步骤处计算输出。循环神经网络的示例是包括一个或多个LSTM存储器块的长短期(LSTM)神经网络。每一个LSTM存储器块可以包括一个或多个单元,其中每一个单元包括允许单元存储单元的先前状态的输入门、忘记门和输出门,例如,用于生成当前的激活或被提供到LSTM神经网络的其他部件。
技术实现思路
本说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的允许相同的神经网络用于执行多个机器学习任务的系统。因此在一个方面,系统包括一个或多个计算机以及存储指令的一个或多个存储设备,所述指令在由一个或多个计算机执行时使得一个或多个计算机实现超神经网络。超神经网络包括一个接一个地布置在堆栈中的多个层。每一层包括相应的多个模块化神经网络并且每一层中的模块化神经网络均被配置为接收用于该层的层输入并生成相应的模块化输出。超神经网络还包括多个一个或多个输出层的集合,其中每一个输出层的集合对应于来自多个机器学习任务的不同机器学习任务并且其中每个一个或多个输出层的集合(共同地)被配置为接收堆栈输出并且生成特定于相应的机器学习任务的神经网络输出。系统还包括被配置为执行操作的子系统,所述操作包括:接收第一网络输入以及从多个机器学习任务中识别要在第一网络输入上执行的第一机器学习任务的数据;选择特定于第一机器学习任务的通过多个层的路径,路径对每一层指定层中的在执行第一机器学习任务时被指派为活动的模块化神经网络的真子集;并且使超神经网络使用(i)对每一层,层中的被所选择的路径指派为活动的模块化神经网络,以及(ii)对应于所识别的第一机器学习任务的一个或多个输出层的集合来处理第一网络输入。如稍后更详细地描述的,所描述的系统的示例能够有效地学习和执行多个任务。在一些实施方式中,超神经网络进一步包括:堆栈中多个层中的每一层之后的相应的组合层。每一个组合层可以被配置为接收由组合层之前的层中的当前活动的模块化神经网络生成的模块化输出;并组合由当前活动的模块化神经网络生成的模块化输出以生成组合输出。在一些实施方式中,除了在堆栈中的最后一层之后的组合层之外的每一个组合层的组合输出是用于该组合层之后的层的层输入。堆栈中的最后一层之后的组合层的组合输出可以是堆栈输出。每一个模块化神经网络可以包括被传递函数层跟随的一个或多个神经网络层,所述传递函数层将传递函数应用于神经网络层的输出。传递函数可以是逐元素激活函数,例如整流线性单元函数。模块化神经网络中的至少一个可包括一个或多个循环神经网络层。循环神经网络层中的一些或全部可以是长短期记忆(LSTM)层。模块化神经网络中的至少一个可以包括卷积神经网络层。模块化神经网络中的至少一个可以包括完全连接的神经网络层。至少两个层可以在真子集中具有不同数量的活动的模块化神经网络。每一层可以在真子集中具有至少一个并且不超过预定数量的活动的模块化神经网络。子系统执行的操作可以进一步包括:接收第二网络输入以及从多个机器学习任务识别要在第二网络输入上执行的不同的第二机器学习任务的数据;选择特定于第二机器学习任务的通过多个层的不同的第二路径,第二路径对层中的每一个指定层中的在执行第二机器学习任务时被指派为活动的模块化神经网络的第二真子集;并且使超神经网络使用(i)对每一层,层中的被第二路径指派为活动的模块化神经网络,以及(ii)对应于第二机器学习任务的一个或多个输出层的集合来处理第二网络输入。还描述了一种在来自多个机器学习任务的特定机器学习任务上训练如上所述的超神经网络的方法。方法可以包括:选择通过多个层的多个候选路径,候选路径中的每一个对层中的每一个指定层中的在执行特定机器学习任务时被指派为活动的模块化神经网络的相应的真子集;在多个候选路径中的每一个上训练超神经网络,其中在多个候选路径中的每一个上训练超神经网络包括:对候选路径中的每一个训练超神经网络,同时仅使用被候选路径指派为活动的模块化神经网络以及对应于特定机器学习任务的输出层来处理训练输入;基于候选路径上的超神经网络的训练的结果来确定多个候选路径中的每一个的适应性;并且选择具有最佳适应性的候选路径作为用于特定机器学习任务的最佳适应路径。在方法的一些实施方式中,演进和学习可以同时发生。方法可以将通过超神经网络的路径的总体向超神经网络参数的有限子集演进,并且然后可以在学习后固定这些参数以保留相应的功能。选择多个候选路径可以包括:选择第一候选路径和第二候选路径;根据在第一候选路径以及第二候选路径上训练超神经网络来确定第一候选路径具有比第二候选路径更好的适应性;并且基于确定第一候选路径具有比第二候选路径更好的适应性:通过改变第一候选路径中的活动的模块化神经网络中的一个或多个来变化第一候选路径;并用变化的第一候选路径替换第二候选路径。变化第一候选路径可以包括,对于被第一候选路径指派为活动的每一个模块化神经网络:确定是否替换模块化神经网络;并且响应于确定替换模块化神经网络而将模块化神经网络指派为不活动并且将相同的层中的另一模块化神经网络指派为活动。确定是否替换模块化神经网络可以包括确定用与1除以第一候选路径中的模块化神经网络的总数相等或成比例的概率来替换模块化神经网络。在多个候选路径中的每一个上训练超神经网络可以包括并行地在初始多个候选路径上训练超神经网络。选择多个候选路径可以包括,对于初始多个中的每一个候选路径:确定初始多个中的其他候选路径的子集中的任何一个是否具有比候选路径更好的适应性;并且如果子集中的任何一个具有更好的适应性:识别具有子集中的其他候选路径的最佳适应性的子集中的候选路径;通过改变所识别的候选路径中的活动的模块化神经网络中的一个或多个来变化所识别的候选路径;并用变化的所识别的候选路径替换候选路径。选择多个候选路径可以进一步包括:如果子集中的候选路径中没有一个具有更好的适应性,则保持候选路径以用于进一步训练。对于初始多个中的每一个候选路径,可以随机选择其他候选路径的子集。在多个候选路径中的每一个上训练超神经网络可以包括:在训练期间,保持用于已经对其确定了最佳适应路径的多个机器学习任务中的任何机器学习任务的最佳适应路径中的任何模块化神经网络的参数的固定值。方法可以进一步包括固定被用于特定机器学习任务的最佳适应路径指派为活动的模块化神经网络的参数的值以在多个机器学习任务中的其他任务上的超神经网络的训练期间不被调整。进一步描述了一种在序列的多个机器学习任务上从序列中第一机器学习任务到序列中的最后一个机器学习任务来训练如上所述的超神经网络的方法。方法可以包括获取用于第一机器学习任务的第一训练数据;并且在第一训练数据上训练超神经网络以确定用于第一机器学习任务的通过多本文档来自技高网...

【技术保护点】
1.一种系统,包括一个或多个计算机以及存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机实现:超神经网络,包括:一个接一个地布置在堆栈中的多个层,其中,每一层包括相应的多个模块化神经网络,并且其中,每一层中的所述模块化神经网络均被配置为接收用于该层的层输入并且生成相应的模块化输出;以及一个或多个输出层的多个集合,其中,输出层的每个集合对应于来自多个机器学习任务的不同机器学习任务,并且其中,一个或多个输出层的每个集合被配置为接收堆栈输出并且生成特定于对应的机器学习任务的神经网络输出;以及子系统,所述子系统被配置为执行操作,所述操作包括:接收第一网络输入以及从所述多个机器学习任务识别要在所述第一网络输入上执行的第一机器学习任务的数据;选择特定于所述第一机器学习任务的通过所述多个层的路径,所述路径针对所述层中的每一个指定该层中的在执行所述第一机器学习任务时被指派为活动的所述模块化神经网络的真子集;以及使所述超神经网络使用(i)对每一层,该层中的被所选择的路径指派为活动的所述模块化神经网络,以及(ii)对应于所识别的第一机器学习任务的一个或多个输出层的集合,来处理所述第一网络输入。...

【技术特征摘要】
【国外来华专利技术】2017.01.30 US 62/452,2761.一种系统,包括一个或多个计算机以及存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机实现:超神经网络,包括:一个接一个地布置在堆栈中的多个层,其中,每一层包括相应的多个模块化神经网络,并且其中,每一层中的所述模块化神经网络均被配置为接收用于该层的层输入并且生成相应的模块化输出;以及一个或多个输出层的多个集合,其中,输出层的每个集合对应于来自多个机器学习任务的不同机器学习任务,并且其中,一个或多个输出层的每个集合被配置为接收堆栈输出并且生成特定于对应的机器学习任务的神经网络输出;以及子系统,所述子系统被配置为执行操作,所述操作包括:接收第一网络输入以及从所述多个机器学习任务识别要在所述第一网络输入上执行的第一机器学习任务的数据;选择特定于所述第一机器学习任务的通过所述多个层的路径,所述路径针对所述层中的每一个指定该层中的在执行所述第一机器学习任务时被指派为活动的所述模块化神经网络的真子集;以及使所述超神经网络使用(i)对每一层,该层中的被所选择的路径指派为活动的所述模块化神经网络,以及(ii)对应于所识别的第一机器学习任务的一个或多个输出层的集合,来处理所述第一网络输入。2.根据权利要求1所述的系统,其中,所述超神经网络进一步包括:在所述堆栈中所述多个层中的每一个之后的相应组合层,其中每一个组合层被配置为:接收由该组合层之前的层中的当前活动的模块化神经网络生成的所述模块化输出;以及组合由当前活动的模块化神经网络生成的所述模块化输出以生成组合输出,以及其中,除了在所述堆栈中的最后一层之后的组合层之外的每一个组合层的组合输出是用于在该组合层之后的层的所述层输入,并且其中,在所述堆栈中的所述最后一层之后的所述组合层的所述组合输出是所述堆栈输出。3.根据权利要求1或权利要求2中的任一项所述的系统,其中,每一个模块化神经网络包括被传递函数层跟随的一个或多个神经网络层,所述传递函数层将传递函数应用于所述神经网络层的输出。4.根据权利要求3所述的系统,其中,所述传递函数是逐元素激活函数。5.根据权利要求4所述的系统,其中,所述传递函数是整流线性单元函数。6.根据权利要求1-5中的任一项所述的系统,其中,所述模块化神经网络中的至少一个包括一个或多个循环神经网络层。7.根据权利要求6所述的系统,其中,所述循环神经网络层中的一些或全部是长短期记忆(LSTM)层。8.根据权利要求1-7中的任一项所述的系统,其中,所述模块化神经网络中的至少一个包括卷积神经网络层。9.根据权利要求1-8中的任一项所述的系统,其中,所述模块化神经网络中的至少一个包括完全连接的神经网络层。10.根据权利要求1-9中的任一项所述的系统,其中,至少两个层在所述真子集中具有不同数量的活动的模块化神经网络。11.根据权利要求1-10中的任一项所述的系统,其中,每一层在所述真子集中具有至少一个并且不超过预定数量的活动的模块化神经网络。12.根据权利要求1-11中的任一项所述的系统,其中,所述操作进一步包括:接收第二网络输入以及从所述多个机器学习任务识别要在所述第二网络输入上执行的不同的第二机器学习任务的数据;选择特定于所述第二机器学习任务的通过所述多个层的不同的第二路径,所述第二路径针对所述层中的每一个指定该层中的在执行所述第二机器学习任务时被指派为活动的所述模块化神经网络的第二真子集;以及使得所述超神经网络使用(i)对每一层,该层中的被所述第二路径指派为活动的所述模块化神经网络,以及(ii)对应于所述第二机器学习任务的一个或多个输出层的集合,来处理所述第二网络输入。13.一种在来自多个机器学习任务的特定机器学习任务上训练根据权利要求1-12中的任一项所述的超神经网络的方法,所述方法包括:选择通过所述多个层的多个候选路径,所述候选路径中的每一个针对所述层中的每一个指定该层中的在执行所述特定机器学习任务时被指派为活动的所述模块化神经网络的相应的真子集;在所述多个候选路径中的每一个上训练所述超神经网络,其中,在所述多个候选路径中的每一个上训练所述超神经网络包括:对所述候选路径中的每一个训练所述超神经网络,同时仅使用被所述候选路径指派为活动的所述模块化神经网络以及对应于所述特定机器学习任务的所述输出层来处理训练输入;基于在所述候选路径上的所述超神经网络的训练的结果确定所述多个候选路径中的每一个的适应性;以及选择具有最佳适应性的候选路径作为用于所述特定机器学习任务的最佳适应路径。14.根据权利要求13所述的方法,其中,选择所述多个候选路径包括:选择第一候选路径和第二候选路径;根据在所述第一候选路径以及所述第二候选路径上训练所述超神经网络,确定所述第一候选路径具有比所述第二候选路径更好的适应性;基于确定所述第一候选路径具有比所述第二候选路径更好的适应性:通过改变所述第一候选路径中的活动模块化神经网络中的一个或多个来变化所述第一候选路径;以及用所变化的第一候选路径替换所述第二候选路径。15.根...

【专利技术属性】
技术研发人员:丹尼尔·彼得·维尔斯特拉克里桑塔·托马斯·费尔南多亚历山大·普里策尔迪伦·苏尼尔·巴纳尔斯查尔斯·布伦代尔安德烈亚历山德鲁·鲁苏约里·茨沃尔斯戴维·哈
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1