模型压缩和微调制造技术

技术编号:15919493 阅读:24 留言:0更新日期:2017-08-02 04:40
压缩机器学习网络(诸如神经网络)包括用经压缩层代替神经网络中的一个层以产生经压缩网络。经压缩网络可通过更新经压缩层中的权重值来微调。

【技术实现步骤摘要】
【国外来华专利技术】模型压缩和微调相关申请的交叉引用本申请要求于2015年1月22日提交的题为“MODELCOMPRESSIONANDFINE-TUNING(模型压缩和微调)”的美国临时专利申请No.62/106,608的权益,其公开内容通过援引全部明确纳入于此。背景领域本公开的某些方面一般涉及神经系统工程,并且尤其涉及用于压缩神经网络的系统和方法。
技术介绍
可包括一群互连的人工神经元(例如,神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每个神经元具有感受野并且合而铺覆一个输入空间。卷积神经网络(CNN)具有众多应用。具体地,CNN已被广泛使用于模式识别和分类领域。深度学习架构(诸如,深度置信网络和深度卷积网络)是分层神经网络架构,其中第一层神经元的输出变成第二层神经元的输入,第二层神经元的输出变成第三层神经元的输入,以此类推。深度神经网络可被训练以识别特征阶层并且因此它们被越来越多地使用于对象识别应用。类似于卷积神经网络,这些深度学习架构中的计算可分布在处理节点群体上,其可被配置在一个或多个计算链中。这些多层架构可每次训练一层并可使用反向传播来进行微调。其他模型也可用于对象识别。例如,支持向量机(SVM)是可被应用于分类的学习工具。支持向量机包括分类数据的分离超平面(例如,决策边界)。该超平面由监督式学习来定义。期望的超平面增加训练数据的余量。换言之,该超平面应该具有到训练示例的最大的最小距离。尽管这些解决方案在数个分类基准上取得了优异的结果,但它们的计算复杂度可能极其高。另外,模型的训练可能是有挑战性的。概述在一个方面,公开了一种压缩机器学习网络(诸如神经网络)的方法。该方法包括用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络。该方法还包括在经压缩网络的经压缩层之间插入非线性。进一步,该方法包括通过更新这些经压缩层中的至少一个经压缩层中的权重值来微调经压缩网络。另一方面公开了一种用于压缩机器学习网络(诸如神经网络)的设备。该设备包括用于用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络的装置。该设备还包括用于在经压缩网络的经压缩层之间插入非线性的装置。进一步,该设备包括用于通过更新这些经压缩层中的至少一个经压缩层中的权重值来微调经压缩网络的装置。另一方面公开了一种用于压缩机器学习网络(诸如神经网络)的装置。该装置包括存储器以及耦合至该存储器的至少一个处理器。该处理器被配置成用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络。该处理器还被配置成在经压缩网络的经压缩层之间插入非线性。进一步,该处理器还被配置成通过更新至少一个经压缩层中的权重值来微调经压缩网络。另一方面公开了一种非瞬态计算机可读介质。该计算机可读介质上记录有用于压缩机器学习网络(诸如神经网络)的非瞬态程序代码。该程序代码在由处理器执行时使处理器用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络。该程序代码还使处理器在经压缩网络的经压缩层之间插入非线性。进一步,该程序代码还使处理器通过更新至少一个经压缩层中的权重值来微调经压缩网络。在另一方面,公开了一种用于压缩机器学习网络(诸如神经网络)的方法。该方法包括用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络,从而组合的经压缩层的感受野大小与未压缩层的感受野相匹配。该方法还包括通过更新这些经压缩层中的至少一个经压缩层中的权重值来微调经压缩网络。另一方面公开了一种用于压缩机器学习网络(诸如神经网络)的设备。该设备包括用于用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络,从而组合的经压缩层的感受野大小与未压缩层的感受野相匹配的装置。该设备还包括用于通过更新这些经压缩层中的至少一个经压缩层中的权重值来微调经压缩网络的装置。另一方面公开了一种用于压缩机器学习网络(诸如神经网络)的装置。该装置包括存储器以及耦合至该存储器的至少一个处理器。该处理器被配置成用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络,从而组合的经压缩层的感受野大小与未压缩层的感受野相匹配。该处理器还被配置成通过更新至少一个经压缩层中的权重值来微调经压缩网络。另一方面公开了一种非瞬态计算机可读介质。该计算机可读介质上记录有用于压缩机器学习网络(诸如神经网络)的非瞬态程序代码。该程序代码在由处理器执行时使处理器用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络,从而组合的经压缩层的感受野大小与未压缩层的感受野相匹配。该程序代码还使处理器通过更新至少一个经压缩层中的权重值来微调经压缩网络。在另一方面,公开了一种压缩机器学习网络(诸如神经网络)的方法。该方法包括用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络。该方法还包括通过应用交替最小化过程来确定经压缩层的权重矩阵。另一方面公开了一种用于压缩机器学习网络(诸如神经网络)的设备。该设备包括用于用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络的装置。该设备还包括用于通过应用交替最小化过程来确定经压缩层的权重矩阵的装置。另一方面公开了一种用于压缩机器学习网络(诸如神经网络)的装置。该装置包括存储器以及耦合至该存储器的至少一个处理器。该处理器被配置成用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络。该处理器还被配置成通过应用交替最小化过程来确定经压缩层的权重矩阵。另一方面公开了一种非瞬态计算机可读介质。该计算机可读介质上记录有用于压缩机器学习网络(诸如神经网络)的程序代码。该程序代码在由处理器执行时使处理器用多个经压缩层代替神经网络中的至少一个层以产生经压缩神经网络。该程序代码还使处理器通过应用交替最小化过程来确定经压缩层的权重矩阵。本公开的附加特征和优点将在下文描述。本领域技术人员应该领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。附图简述在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。图1解说了根据本公开的一些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。图2解说了根据本公开的各方面的系统的示例实现。图3A是解说根据本公开的各方面的神经网络的示图。图3B是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。图4A是解说根据本公开的各方面的可将人工智能(AI)功能模块化的示例性软件架构的框图。图4B是解说根据本公开的各方面的智能手机上的AI应用的运行时操作的框图。图5A-B和6A-B是解说根据本公开的各方面的全连接层和经压缩全连接层的框图。图7是解说根据本公开的各方面的示例性卷积层的框图。图8A-B和9A-B解说了根据本公开的各方面的卷积层的示例压缩。图10-13是解本文档来自技高网...
模型压缩和微调

【技术保护点】
一种压缩神经网络的方法,包括:用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络;在所述经压缩网络的经压缩层之间插入非线性;以及通过更新所述经压缩层中的至少一个经压缩层中的权重值来微调所述经压缩网络。

【技术特征摘要】
【国外来华专利技术】2015.01.22 US 62/106,608;2015.09.04 US 14/846,5791.一种压缩神经网络的方法,包括:用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络;在所述经压缩网络的经压缩层之间插入非线性;以及通过更新所述经压缩层中的至少一个经压缩层中的权重值来微调所述经压缩网络。2.如权利要求1所述的方法,其特征在于,所述插入非线性包括向所述经压缩层的神经元应用非线性激活函数。3.如权利要求2所述的方法,其特征在于,所述非线性激活函数是矫正器、绝对值函数、双曲正切函数或S形函数。4.如权利要求1所述的方法,其特征在于,所述微调是通过更新所述经压缩神经网络中的所述权重值来执行的。5.如权利要求4所述的方法,其特征在于,所述微调包括更新所述经压缩层的子集或者未压缩层的子集中的至少一者中的权重值。6.如权利要求4所述的方法,其特征在于,所述微调是使用训练示例来执行的,所述训练示例包括用来训练未压缩网络的第一示例集合或新的示例集合中的至少一者。7.如权利要求1所述的方法,其特征在于,进一步包括:通过重复地应用压缩、插入非线性层、以及微调作为用于初始化较深神经网络的方法来初始化所述神经网络。8.一种压缩神经网络的方法,包括:用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络,从而组合的经压缩层的感受野大小与未压缩层的感受野相匹配;以及通过更新至少一个经压缩层中的权重值来微调所述经压缩网络。9.如权利要求8所述的方法,其特征在于,未压缩层的内核大小等于所述感受野大小。10.如权利要求8所述的方法,其特征在于,所述代替包括:用具有内核大小k1x×k1y、k2x×k2y…kLx×kLy的相同类型的多个经压缩层来代替所述神经网络中具有内核大小kx×ky的至少一个层以产生所述经压缩网络,其中满足性质(k1x-1)+(k2x-1)+…=(kx-1)和(k1y-1)+(k2y-1)+…=(ky-1)。11.如权利要求10所述的方法,其特征在于,具有内核大小kx×ky的卷积层用分别具有内核大小1×1、kx×ky和1×1的三个卷积层代替。12.一种压缩神经网络的方法,包括:用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络;以及通过应用交替最小化过程来确定经压缩层的权重矩阵。13.如权利要求12所述的方法,其特征在于,进一步包括通过更新所述经压缩层中的至少一个经压缩层中的权重值来微调所述经压缩网络。14.如权利要求13所述的方法,其特征在于,所述微调包括更新所述经压缩层的子集或者未压缩层的子集中的至少一者中的权重值。15.如权利要求13所述的方法,其特征在于,所述微调是在多个阶段中执行的,其中在第一阶段中针对经压缩层的子集执行所述微调,并且在第二阶段中针对经压缩层和未压缩层的子集执行所述微调。16.一种用于压缩神经网络的装置,包括:存储器;以及耦合至所述存储器的至少一个处理器,所述至少一个处理器被配置成:用多个经压缩层代替所述神经网络中的至少一个层以产生经压缩神经网络;在所述经压缩网络的经压缩层之间插入非线性;以及通过更新至少一个经压缩层中的权重值来微调所述经压缩网络。17.如权利要求16所述的装置,其特征在于,所述至少一个处理器被进一步配置成通过向所述经压缩层的神经元应用非线性激活函数来插入非线性。18.如权利要求17所述的装置,其特征在于,所述非线性激活函数是矫正器、绝对值函数、双曲正切函数或S形函数。19.如权利要求16所述的装置,其特征在于,所述至少一个处理器被进一步配置成通过更新所述经压缩神经网络中的所述权重值来执行所述微调。20.如权利要求19所述的装置,其特征在于,所述至少一个处理器被进一步配置成通过更新经压缩层的子集或者未压缩层的子集中的至少一者中的权重值来执行所述微调。21.如权利要求19所述的装置,其特征在于,所述至少一个处理器被进一步配置成通过使用训练示例来执行所述微调,所述训练示例...

【专利技术属性】
技术研发人员:V·S·R·安纳普莱蒂D·H·F·德克曼D·J·朱利安
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1