在多个机器学习任务上训练机器学习模型制造技术

技术编号：20986543 阅读：23 留言：0更新日期：2019-04-29 20:06

一种训练具有多个参数的机器学习模型的方法，其中该机器学习模型已经在第一机器学习任务上进行训练以确定该机器学习模型的参数的第一值。该方法包括：对于每一个参数，确定参数对机器学习模型在第一机器学习任务上实现可接受性能的重要性的相应度量；获得用于在第二、不同的机器学习任务上训练机器学习模型的训练数据；以及，通过在训练数据上训练机器学习模型，在第二机器学习任务上训练机器学习模型以调节参数的第一值，使得机器学习模型在第二机器学习任务上实现可接受性能水平，同时在第一机器学习任务上保持可接受性能水平。

Training Machine Learning Model on Multiple Machine Learning Tasks

A method of training machine learning models with multiple parameters, in which the machine learning model has been trained on the first machine learning task to determine the first value of the parameters of the machine learning model. The method includes: for each parameter, determining the corresponding measure of the importance of parameters to the acceptable performance of the machine learning model on the first machine learning task; obtaining training data for training the machine learning model on the second and different machine learning tasks; and training the machine learning model on the second machine learning task by training the training data. Machine learning model adjusts the first value of the parameters so that the machine learning model achieves acceptable performance level in the second machine learning task, while maintaining acceptable performance level in the first machine learning task.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】在多个机器学习任务上训练机器学习模型相关申请的交叉引用本申请要求于2016年7月18日提交的、序列号为62/363,652的美国临时申请的优先权。该在先申请的公开被认为是本申请公开的一部分，并通过引用并入本申请的公开中。
技术介绍
本说明书涉及训练机器学习模型。机器学习模型接收输入，并基于接收到的输入生成输出，例如，预测的输出。一些机器学习模型是参数模型，并基于接收到的输入和模型的参数值生成输出。一些机器学习模型是深度模型，其利用模型的多个层为接收到的输入生成输出。例如，深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型，其中每个隐藏层对接收到的输入应用非线性变换以生成输出。然而，机器学习模型在多个任务上训练时可能会经受“灾难性遗忘”，即在学习新任务时丢失先前任务的知识。一些神经网络是递归神经网络。递归神经网络是接收输入序列并根据输入序列生成输出序列的神经网络。具体地，递归神经网络在处理了输入序列中的先前输入之后，使用网络的一些或全部内部状态，根据输入序列中的当前输入生成输出。
技术实现思路
本说明书描述了在一个或多个位置处的一个或多个计算机上实施为计算机程序的系统如何在多个机器学习任务上训练机器学习模型。总的来说，一个创新方面可以体现在用于训练具有多个参数的机器学习模型的方法中。机器学习模型已经在第一机器学习任务上进行了训练以确定机器学习模型的参数的第一值。该方法包括：对于多个参数中的每一个参数，确定参数对机器学习模型在第一机器学习任务上实现可接受性能的重要性的相应度量；获得用于在第二、不同的机器学习任务上训练机器学习模型的训练数据；以及，通过在训练数据...

【技术保护点】
1.一种训练具有多个参数的机器学习模型的方法，其中，所述机器学习模型已经在第一机器学习任务上进行训练以确定所述机器学习模型的参数的第一值，并且其中，所述方法包括：对于所述多个参数中的每一个参数，确定参数对所述机器学习模型在所述第一机器学习任务上实现可接受性能的重要性的相应度量；获得用于在第二、不同的机器学习任务上训练所述机器学习模型的训练数据；以及通过在所述训练数据上训练所述机器学习模型，在所述第二机器学习任务上训练所述机器学习模型以调节所述参数的第一值，使得所述机器学习模型在所述第二机器学习任务上实现可接受性能水平，同时在所述第一机器学习任务上保持可接受性能水平，其中，在所述机器学习模型在所述第二机器学习任务上进行训练期间，对所述机器学习模型在所述第一机器学习任务上实现可接受性能更为重要的参数的值比对所述机器学习模型在所述第一机器学习任务上实现可接受性能不太重要的参数的值受到更强的约束以不偏离所述第一值。

【技术特征摘要】
【国外来华专利技术】2016.07.18 US 62/363,6521.一种训练具有多个参数的机器学习模型的方法，其中，所述机器学习模型已经在第一机器学习任务上进行训练以确定所述机器学习模型的参数的第一值，并且其中，所述方法包括：对于所述多个参数中的每一个参数，确定参数对所述机器学习模型在所述第一机器学习任务上实现可接受性能的重要性的相应度量；获得用于在第二、不同的机器学习任务上训练所述机器学习模型的训练数据；以及通过在所述训练数据上训练所述机器学习模型，在所述第二机器学习任务上训练所述机器学习模型以调节所述参数的第一值，使得所述机器学习模型在所述第二机器学习任务上实现可接受性能水平，同时在所述第一机器学习任务上保持可接受性能水平，其中，在所述机器学习模型在所述第二机器学习任务上进行训练期间，对所述机器学习模型在所述第一机器学习任务上实现可接受性能更为重要的参数的值比对所述机器学习模型在所述第一机器学习任务上实现可接受性能不太重要的参数的值受到更强的约束以不偏离所述第一值。2.根据权利要求1所述的方法，其中，所述第一机器学习任务和所述第二机器学习任务是不同的监督学习任务。3.根据权利要求1所述的方法，其中，所述第一机器学习任务和所述第二机器学习任务是不同的强化学习任务。4.根据权利要求1至3中任一项所述的方法，其中，在所述训练数据上训练所述机器学习模型包括：调节所述参数的第一值以使目标函数最优化，所述目标函数包括：(i)第一项，度量所述机器学习模型在所述第二机器学习任务上的性能，和(ii)第二项，对偏离所述第一参数值的参数值施加惩罚，其中，所述第二项对于对在所述第一机器学习任务上实现可接受性能更为重要的参数与所述第一值的偏差的惩罚比对在所述第一机器学习任务上实现可接受性能不太重要的参数更重。5.根据权利要求4所述的方法，其中，对于所述训练数据中的每个训练示例，在所述训练数据上训练所述机器学习模型包括：按照所述机器学习模型的参数的当前值，使用所述机器学习模型处理所述训练示例以确定模型输出；使用所述模型输出、所述训练示例的目标输出、所述机器学习模型的参数的当前值和所述机器学习模型的参数的第一值来确定所述目标函数的梯度；以及使用所述梯度调节所述参数的当前值以使所述目标函数最优化。6.根据权利要求4或5中任一项所述的方法，其中，对于所述多个参数中的每一个参数，所述第二项取决于所述参数的重要性的相应度量和所述参数的当前值与所述参数的第一值之间的差的乘积。7.根据权利要求1至6中任一项所述的方法，其中，对于所述多个参数中的每一个参数，确定参数对所述机器学习模型在所述第一机器学习任务上实现可接受性能的重要性的相应度量包括：对于所述多个参数中的每一个参数，在给定用于在所述第一任务上训练所述机器学习模型的第一训练数据的情况下，确定参数的当前值是参数的正确值的概率的近似值。8.根据权利要求1至7中任一项所述的方法，其中，对于所述多个参数中的每一个参数，确定参数对所述机器学习模型在所述第一机器学习任务上实现可接受性能的重要性的相应度量包括：确定所述机器学习模型的多个参数相对于所述第一机器学习任务的费歇尔信息矩阵FIM，其中，对于所述多个参数...

【专利技术属性】
技术研发人员：G戴士贾汀斯，R帕斯卡努，RT哈德塞尔，J柯克帕特里克，JW韦内斯，NC拉比诺维茨，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：英国,GB

全部详细技术资料下载我是这个专利的主人