模型压缩和微调制造技术

技术编号：15919493 阅读：24 留言：0更新日期：2017-08-02 04:40

压缩机器学习网络(诸如神经网络)包括用经压缩层代替神经网络中的一个层以产生经压缩网络。经压缩网络可通过更新经压缩层中的权重值来微调。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】模型压缩和微调相关申请的交叉引用本申请要求于2015年1月22日提交的题为“MODELCOMPRESSIONANDFINE-TUNING(模型压缩和微调)”的美国临时专利申请No.62/106,608的权益，其公开内容通过援引全部明确纳入于此。背景领域本公开的某些方面一般涉及神经系统工程，并且尤其涉及用于压缩神经网络的系统和方法。
技术介绍
可包括一群互连的人工神经元(例如，神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合，其中每个神经元具有感受野并且合而铺覆一个输入空间。卷积神经网络(CNN)具有众多应用。具体地，CNN已被广泛使用于模式识别和分类领域。深度学习架构(诸如，深度置信网络和深度卷积网络)是分层神经网络架构，其中第一层神经元的输出变成第二层神经元的输入，第二层神经元的输出变成第三层神经元的输入，以此类推。深度神经网络可被训练以识别特征阶层并且因此它们被越来越多地使用于对象识别应用。类似于卷积神经网络，这些深度学习架构中的计算可分布在处理节点群体上，其可被配置在一个或多个计算链中。这些多层架构可每次训练一层并可使用反向传播来进行微调。其他模型也可用于对象识别。例如，支持向量机(SVM)是可被应用于分类的学习工具。支持向量机包括分类数据的分离超平面(例如，决策边界)。该超平面由监督式学习来定义。期望的超平面增加训练数据的余量。换言之，该超平面应该具有到训练示例的最大的最小距离。尽管这些解决方案在数个分类基准上取得了优异的结果，但它们的计算复杂度可能极其高。另外，模型...
模型压缩和微调

【技术保护点】
一种压缩神经网络的方法，包括：用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络；在所述经压缩网络的经压缩层之间插入非线性；以及通过更新所述经压缩层中的至少一个经压缩层中的权重值来微调所述经压缩网络。

【技术特征摘要】
【国外来华专利技术】2015.01.22 US 62/106,608;2015.09.04 US 14/846,5791.一种压缩神经网络的方法，包括：用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络；在所述经压缩网络的经压缩层之间插入非线性；以及通过更新所述经压缩层中的至少一个经压缩层中的权重值来微调所述经压缩网络。2.如权利要求1所述的方法，其特征在于，所述插入非线性包括向所述经压缩层的神经元应用非线性激活函数。3.如权利要求2所述的方法，其特征在于，所述非线性激活函数是矫正器、绝对值函数、双曲正切函数或S形函数。4.如权利要求1所述的方法，其特征在于，所述微调是通过更新所述经压缩神经网络中的所述权重值来执行的。5.如权利要求4所述的方法，其特征在于，所述微调包括更新所述经压缩层的子集或者未压缩层的子集中的至少一者中的权重值。6.如权利要求4所述的方法，其特征在于，所述微调是使用训练示例来执行的，所述训练示例包括用来训练未压缩网络的第一示例集合或新的示例集合中的至少一者。7.如权利要求1所述的方法，其特征在于，进一步包括：通过重复地应用压缩、插入非线性层、以及微调作为用于初始化较深神经网络的方法来初始化所述神经网络。8.一种压缩神经网络的方法，包括：用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络，从而组合的经压缩层的感受野大小与未压缩层的感受野相匹配；以及通过更新至少一个经压缩层中的权重值来微调所述经压缩网络。9.如权利要求8所述的方法，其特征在于，未压缩层的内核大小等于所述感受野大小。10.如权利要求8所述的方法，其特征在于，所述代替包括：用具有内核大小k1x×k1y、k2x×k2y…kLx×kLy的相同类型的多个经压缩层来代替所述神经网络中具有内核大小kx×ky的至少一个层以产生所述经压缩网络，其中满足性质(k1x-1)+(k2x-1)+…＝(kx-1)和(k1y-1)+(k2y-1)+…＝(ky-1)。11.如权利要求10所述的方法，其特征在于，具有内核大小kx×ky的卷积层用分别具有内核大小1×1、kx×ky和1×1的三个卷积层代替。12.一种压缩神经网络的方法，包括：用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络；以及通过应用交替最小化过程来确定经压缩层的权重矩阵。13.如权利要求12所述的方法，其特征在于，进一步包括通过更新所述经压缩层中的至少一个经压缩层中的权重值来微调所述经压缩网络。14.如权利要求13所述的方法，其特征在于，所述微调包括更新所述经压缩层的子集或者未压缩层的子集中的至少一者中的权重值。15.如权利要求13所述的方法，其特征在于，所述微调是在多个阶段中执行的，其中在第一阶段中针对经压缩层的子集执行所述微调，并且在第二阶段中针对经压缩层和未压缩层的子集执行所述微调。16.一种用于压缩神经网络的装置，包括：存储器；以及耦合至所述存储器的至少一个处理器，所述至少一个处理器被配置成：用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络；在所述经压缩网络的经压缩层之间插入非线性；以及通过更新至少一个经压缩层中的权重值来微调所述经压缩网络。17.如权利要求16所述的装置，其特征在于，所述至少一个处理器被进一步配置成通过向所述经压缩层的神经元应用非线性激活函数来插入非线性。18.如权利要求17所述的装置，其特征在于，所述非线性激活函数是矫正器、绝对值函数、双曲正切函数或S形函数。19.如权利要求16所述的装置，其特征在于，所述至少一个处理器被进一步配置成通过更新所述经压缩神经网络中的所述权重值来执行所述微调。20.如权利要求19所述的装置，其特征在于，所述至少一个处理器被进一步配置成通过更新经压缩层的子集或者未压缩层的子集中的至少一者中的权重值来执行所述微调。21.如权利要求19所述的装置，其特征在于，所述至少一个处理器被进一步配置成通过使用训练示例来执行所述微调，所述训练示例...

【专利技术属性】
技术研发人员：V·S·R·安纳普莱蒂，D·H·F·德克曼，D·J·朱利安，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人