具有任务特定路径的多任务神经网络制造技术

技术编号：21959016 阅读：21 留言：0更新日期：2019-08-24 22:19

用于使用多任务神经网络的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。一种方法包括接收第一网络输入以及识别要在第一网络输入上执行的第一机器学习任务的数据；选择特定于第一机器学习任务的通过超神经网络中多个层的路径，所述路径针对每一层指定层中的在执行第一机器学习任务时被指派为活动的模块化神经网络的真子集；并且使超神经网络使用(i)对于每一层，层中的被所选择的路径指派为活动的模块化神经网络，以及(ii)对应于所识别的第一机器学习任务的一个或多个输出层的集合来处理第一网络输入。

Multitask Neural Network with Task-specific Path

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】具有任务特定路径的多任务神经网络
技术介绍
本说明书涉及神经网络。神经网络是使用一个或多个非线性单元层来预测对于接收到的输入的输出的机器学习模型。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每一个隐藏层的输出被用作对网络中下一层——即下一个隐藏层或输出层——的输入。网络中的每一层根据相应的参数集合的当前值从接收到的输入生成输出。一些神经网络是循环神经网络。循环神经网络是接收输入序列并且根据输入序列生成输出序列的神经网络。特别地，循环神经网络可以将来自先前时间步骤的网络的一些或全部内部状态用于在当前时间步骤处计算输出。循环神经网络的示例是包括一个或多个LSTM存储器块的长短期(LSTM)神经网络。每一个LSTM存储器块可以包括一个或多个单元，其中每一个单元包括允许单元存储单元的先前状态的输入门、忘记门和输出门，例如，用于生成当前的激活或被提供到LSTM神经网络的其他部件。
技术实现思路
本说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的允许相同的神经网络用于执行多个机器学习任务的系统。因此在一个方面，系统包括一个或多个计算机以及存储指令的一个或多个存储设备，所述指令在由一个或多个计算机执行时使得一个或多个计算机实现超神经网络。超神经网络包括一个接一个地布置在堆栈中的多个层。每一层包括相应的多个模块化神经网络并且每一层中的模块化神经网络均被配置为接收用于该层的层输入并生成相应的模块化输出。超神经网络还包括多个一个或多个输出层的集合，其中每一个输出层的集合对应于来自多个机器学习任务的不同机器学习任务并且其中每个一个或多个输出层的集合(共同地)被...

【技术保护点】
1.一种系统，包括一个或多个计算机以及存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机实现：超神经网络，包括：一个接一个地布置在堆栈中的多个层，其中，每一层包括相应的多个模块化神经网络，并且其中，每一层中的所述模块化神经网络均被配置为接收用于该层的层输入并且生成相应的模块化输出；以及一个或多个输出层的多个集合，其中，输出层的每个集合对应于来自多个机器学习任务的不同机器学习任务，并且其中，一个或多个输出层的每个集合被配置为接收堆栈输出并且生成特定于对应的机器学习任务的神经网络输出；以及子系统，所述子系统被配置为执行操作，所述操作包括：接收第一网络输入以及从所述多个机器学习任务识别要在所述第一网络输入上执行的第一机器学习任务的数据；选择特定于所述第一机器学习任务的通过所述多个层的路径，所述路径针对所述层中的每一个指定该层中的在执行所述第一机器学习任务时被指派为活动的所述模块化神经网络的真子集；以及使所述超神经网络使用(i)对每一层，该层中的被所选择的路径指派为活动的所述模块化神经网络，以及(ii)对应于所识别的第一机器学习任务的一个或多个输出层的...

【技术特征摘要】
【国外来华专利技术】2017.01.30 US 62/452,2761.一种系统，包括一个或多个计算机以及存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机实现：超神经网络，包括：一个接一个地布置在堆栈中的多个层，其中，每一层包括相应的多个模块化神经网络，并且其中，每一层中的所述模块化神经网络均被配置为接收用于该层的层输入并且生成相应的模块化输出；以及一个或多个输出层的多个集合，其中，输出层的每个集合对应于来自多个机器学习任务的不同机器学习任务，并且其中，一个或多个输出层的每个集合被配置为接收堆栈输出并且生成特定于对应的机器学习任务的神经网络输出；以及子系统，所述子系统被配置为执行操作，所述操作包括：接收第一网络输入以及从所述多个机器学习任务识别要在所述第一网络输入上执行的第一机器学习任务的数据；选择特定于所述第一机器学习任务的通过所述多个层的路径，所述路径针对所述层中的每一个指定该层中的在执行所述第一机器学习任务时被指派为活动的所述模块化神经网络的真子集；以及使所述超神经网络使用(i)对每一层，该层中的被所选择的路径指派为活动的所述模块化神经网络，以及(ii)对应于所识别的第一机器学习任务的一个或多个输出层的集合，来处理所述第一网络输入。2.根据权利要求1所述的系统，其中，所述超神经网络进一步包括：在所述堆栈中所述多个层中的每一个之后的相应组合层，其中每一个组合层被配置为：接收由该组合层之前的层中的当前活动的模块化神经网络生成的所述模块化输出；以及组合由当前活动的模块化神经网络生成的所述模块化输出以生成组合输出，以及其中，除了在所述堆栈中的最后一层之后的组合层之外的每一个组合层的组合输出是用于在该组合层之后的层的所述层输入，并且其中，在所述堆栈中的所述最后一层之后的所述组合层的所述组合输出是所述堆栈输出。3.根据权利要求1或权利要求2中的任一项所述的系统，其中，每一个模块化神经网络包括被传递函数层跟随的一个或多个神经网络层，所述传递函数层将传递函数应用于所述神经网络层的输出。4.根据权利要求3所述的系统，其中，所述传递函数是逐元素激活函数。5.根据权利要求4所述的系统，其中，所述传递函数是整流线性单元函数。6.根据权利要求1-5中的任一项所述的系统，其中，所述模块化神经网络中的至少一个包括一个或多个循环神经网络层。7.根据权利要求6所述的系统，其中，所述循环神经网络层中的一些或全部是长短期记忆(LSTM)层。8.根据权利要求1-7中的任一项所述的系统，其中，所述模块化神经网络中的至少一个包括卷积神经网络层。9.根据权利要求1-8中的任一项所述的系统，其中，所述模块化神经网络中的至少一个包括完全连接的神经网络层。10.根据权利要求1-9中的任一项所述的系统，其中，至少两个层在所述真子集中具有不同数量的活动的模块化神经网络。11.根据权利要求1-10中的任一项所述的系统，其中，每一层在所述真子集中具有至少一个并且不超过预定数量的活动的模块化神经网络。12.根据权利要求1-11中的任一项所述的系统，其中，所述操作进一步包括：接收第二网络输入以及从所述多个机器学习任务识别要在所述第二网络输入上执行的不同的第二机器学习任务的数据；选择特定于所述第二机器学习任务的通过所述多个层的不同的第二路径，所述第二路径针对所述层中的每一个指定该层中的在执行所述第二机器学习任务时被指派为活动的所述模块化神经网络的第二真子集；以及使得所述超神经网络使用(i)对每一层，该层中的被所述第二路径指派为活动的所述模块化神经网络，以及(ii)对应于所述第二机器学习任务的一个或多个输出层的集合，来处理所述第二网络输入。13.一种在来自多个机器学习任务的特定机器学习任务上训练根据权利要求1-12中的任一项所述的超神经网络的方法，所述方法包括：选择通过所述多个层的多个候选路径，所述候选路径中的每一个针对所述层中的每一个指定该层中的在执行所述特定机器学习任务时被指派为活动的所述模块化神经网络的相应的真子集；在所述多个候选路径中的每一个上训练所述超神经网络，其中，在所述多个候选路径中的每一个上训练所述超神经网络包括：对所述候选路径中的每一个训练所述超神经网络，同时仅使用被所述候选路径指派为活动的所述模块化神经网络以及对应于所述特定机器学习任务的所述输出层来处理训练输入；基于在所述候选路径上的所述超神经网络的训练的结果确定所述多个候选路径中的每一个的适应性；以及选择具有最佳适应性的候选路径作为用于所述特定机器学习任务的最佳适应路径。14.根据权利要求13所述的方法，其中，选择所述多个候选路径包括：选择第一候选路径和第二候选路径；根据在所述第一候选路径以及所述第二候选路径上训练所述超神经网络，确定所述第一候选路径具有比所述第二候选路径更好的适应性；基于确定所述第一候选路径具有比所述第二候选路径更好的适应性：通过改变所述第一候选路径中的活动模块化神经网络中的一个或多个来变化所述第一候选路径；以及用所变化的第一候选路径替换所述第二候选路径。15.根...

【专利技术属性】
技术研发人员：丹尼尔·彼得·维尔斯特拉，克里桑塔·托马斯·费尔南多，亚历山大·普里策尔，迪伦·苏尼尔·巴纳尔斯，查尔斯·布伦代尔，安德烈亚历山德鲁·鲁苏，约里·茨沃尔斯，戴维·哈，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人