用于提高经训练的机器学习模型的性能的方法技术

技术编号:17960122 阅读:34 留言:0更新日期:2018-05-16 05:34
一种用于提高经训练的机器学习模型的性能的方法,包括将具有第二目标函数的第二分类器添加到具有第一目标函数的第一分类器。第二目标函数被用于直接减少第一分类器的数目误差,而不是最小化第一分类器的误差函数。

Method for improving the performance of trained machine learning models

A method used to improve the performance of a trained machine learning model, including adding second classifiers with second objective functions to the first classifier with the first objective function. Second the objective function is used to directly reduce the number of errors of the first classifier, rather than minimizing the error function of the first classifier.

【技术实现步骤摘要】
【国外来华专利技术】用于提高经训练的机器学习模型的性能的方法相关申请的交叉引用本申请要求于2015年8月25日提交且题为“METHODFORIMPROVINGPERFORMANCEOFATRAINEDMACHINELEARNINGMODEL(用于提高经训练的机器学习模型的性能的方法)”的美国临时专利申请No.62/209,859的权益,其公开内容通过援引全部明确纳入于此。背景领域本公开的某些方面一般涉及机器学习,尤其涉及用于提高经训练的机器学习模型的性能的方法。背景可包括一群互连的人工神经元(例如,神经元模型)的机器学习模型(诸如,人工神经网络)是一种计算设备或者表示将由计算设备执行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每一个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)具有众多应用。具体而言,CNN已被广泛使用于模式识别和分类领域。深度学习架构(诸如深度置信网络和深度卷积网络)是分层神经网络架构,其中第一层神经元的输出变成第二层神经元的输入,第二层神经元的输出变成第三层神经元的输入,依此类推。深度神经网络可被训练以识别特征阶层并且因此它们已被越来越多地用于对象识别应用。类似于卷积神经网络,这些深度学习架构中的计算可分布在处理节点群体上,其可被配置在一个或多个计算链中。这些多层架构可每次训练一层并可使用反向传播微调。其他模型也可用于对象识别。例如,支持向量机(SVM)是可被应用于分类的学习工具。支持向量机包括对数据进行归类的分离超平面(例如,决策边界)。该超平面由监督式学习来定义。期望的超平面增加训练数据的裕量。换言之,超平面应该具有到训练示例的最大的最小距离。尽管这些解决方案在数个分类基准上达到了优异的结果,但它们的计算复杂度可能极其高。另外,模型的训练可能是有挑战性的。概述在本公开的一方面,给出了一种用于提高经训练的机器学习模型的性能的方法。该方法包括将具有第二目标函数的第二分类器添加到具有第一目标函数的第一分类器。第二目标函数用于直接减少第一分类器的误差。在另一方面,提出了一种用于提高经训练的机器学习模型的性能的装置。该装置包括存储器以及耦合到所述存储器的至少一个处理器。(诸)处理器被配置为将具有第二目标函数的第二分类器添加到具有第一目标函数的第一分类器。第二目标函数用于直接减少第一分类器的误差。在又一方面,提出了一种用于提高经训练的机器学习模型的性能的装备。该装备包括用于将具有第二目标函数的第二分类器添加到具有第一目标函数的第一分类器的装置。第二目标函数用于直接减少第一分类器的误差。该装备进一步包括用于基于经由经训练的机器学习模型接收到的输入来从第二分类器输出特征向量的装置。在又一方面,给出了一种非瞬态计算机可读介质。该非瞬态计算机可读介质具有编码于其上的用于提高经训练的机器学习模型的性能的程序代码。该程序代码由处理器执行并且包括用于将具有第二目标函数的第二分类器添加到具有第一目标函数的第一分类器的程序代码。第二目标函数用于直接减少第一分类器的误差。本公开的附加特征和优点将在下文描述。本领域技术人员应当领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。附图简述在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。图1解说了根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。图2解说了根据本公开的各方面的系统的示例实现。图3A是解说根据本公开的各方面的神经网络的示图。图3B是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。图4是解说根据本公开的各方面的可将人工智能(AI)功能模块化的示例性软件架构的框图。图5是解说根据本公开的各方面的智能手机上的AI应用的运行时操作的框图。图6A和图6B是解说根据本公开的各方面的用于将第二分类器添加到第一分类器以提高机器学习模型的性能的变化的框图。图7是根据本公开的各方面的用于提高经训练的机器学习模型的性能的示例性分类器的示意图。图8解说了根据本公开的各方面的用于提高经训练的机器学习模型的性能的方法。图9是解说了根据本公开的各方面的用于提高经训练的机器学习模型的性能的方法的框图。详细描述以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以避免湮没此类概念。基于本教导,本领域技术人员应领会,本公开的范围旨在覆盖本公开的任何方面,不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如,可以使用所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。措辞“示例性”在本文中用于表示“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。尽管本文描述了特定方面,但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点,但本公开的范围并非旨在被限定于特定益处、用途或目标。相反,本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议,其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开,本公开的范围由所附权利要求及其等效技术方案来定义。本公开的各方面涉及提高经训练的较低复杂度机器学习模型的性能。根据本公开的各方面,可通过添加第二分类器来提高模型性能,该第二分类器被配置为直接最小化或减少低复杂度分类器的分类误差的数目。也就是说,用于添加的分类器的新目标函数被定义为直接最小化或减少误差的数目,而不是最小化由使用标准技术(例如,梯度下降)的典型成本函数(例如,平方和(SSE)或负对数似然)给出的误差函数。例如,如果执行分类操作,其中有七个正确的分类和三个不正确的分类,则目标函数可被设计成将三个误差减少到零。另外,根据本公开的各方面,可使用较高复杂度模型的软概率来进一步提高经训练的较低复杂度机器学习模型的性能。软概率软概率是概率向量的非最大概率值或暗值。在许多常规分类系统中,使用概率向量来预测类别标记。在此常规系统中,使用概率向量中的最高或最大概率值来预测类别标记。非最大概率值或软概率被忽略。例如,考虑分类的监督式机器学习问题,其中使用由N个输入数据的样本Xtr=[x0,x1,x2,…xN-1]和对应的经C标记的输出数据的N个训练样本ytr=[y0,y1,y2,…yN-1]组成的本文档来自技高网...
用于提高经训练的机器学习模型的性能的方法

【技术保护点】
一种用于提高经训练的机器学习模型的性能的方法,包括:将具有第二目标函数的第二分类器添加到具有第一目标函数的第一分类器,所述第二目标函数用于直接减少所述第一分类器的误差。

【技术特征摘要】
【国外来华专利技术】2015.08.25 US 62/209,859;2015.09.23 US 14/863,4101.一种用于提高经训练的机器学习模型的性能的方法,包括:将具有第二目标函数的第二分类器添加到具有第一目标函数的第一分类器,所述第二目标函数用于直接减少所述第一分类器的误差。2.如权利要求1所述的方法,其特征在于,所述第一目标函数是可微分的。3.如权利要求1所述的方法,其特征在于,所述第二目标函数是非可微分的。4.如权利要求1所述的方法,其特征在于,所述第二目标函数是所述第一分类器与所述第二分类器的误差之间的差的函数。5.如权利要求1所述的方法,其特征在于,进一步包括至少部分地基于来自较高复杂度模型的概率的混合来确定所述第二目标函数。6.如权利要求1所述的方法,其特征在于,进一步包括添加所述第二分类器而不重新训练所述第一分类器。7.如权利要求1所述的方法,其特征在于,进一步包括将所述第二分类器外部地添加到所述第一分类器。8.如权利要求1所述的方法,其特征在于,进一步包括将为身份值的权重指派给由所述第一分类器训练的模型产生的特征。9.如权利要求8所述的方法,其特征在于,进一步包括将为零的权重指派给由高复杂度模型的概率向量产生的特征。10.如权利要求1所述的方法,其特征在于,进一步包括将权重指派给由所述第二分类器的概率向量产生的特征。11.如权利要求1所述的方法,其特征在于,进一步包括将为零的权重指派给由高复杂度模型的概率向量产生的特征。12.如权利要求11所述的方法,其特征在于,进一步包括将权重指派给由所述第二分类器的概率向量产生的特征。13.如权利要求1所述的方法,其特征在于,进一步包括将由较高复杂度模型产生的概率向量以固定的温度T为因子进行缩放。14.一种用于提高经训练的机器学习模型的性能的装置,包括:存储器;以及至少一个处理器,其耦合到所述存储器,所述至少一个处理器被配置为将具有第二目标函数的第二分类器添加到具有第一目标函数的第一分类器,所述第二目标函数用于直接减少所述第一分类器的误差。15.如权利要求14所述的装置,其特征在于,所述第一目标函数是可微分的。1...

【专利技术属性】
技术研发人员:S·S·塔拉迪A·瓦尔塔卡
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1