当前位置: 首页 > 专利查询>复旦大学专利>正文

基于固定基正则化的神经网络参数稀疏化方法技术

技术编号:28296759 阅读:84 留言:0更新日期:2021-04-30 16:21
本发明专利技术属于人工智能领域,涉及一种基于固定基正则化的神经网络参数稀疏化方法;该方法通过将卷积神经网络中大量卷积核和权重参数分解为多组低秩的固定基的表达形式,并对固定基选择折叠处理,调节低秩参数,在网络模型预训练后,结合固定基部分参数正则化和部分剪枝算法,后期少数步骤进行稀疏化训练。所述方法可用于图片识别分类的应用,通过固定基表示大量网络参数,便于硬件平台的实现的同时降低了计算的复杂度;与现在已经提出的神经网络稀疏化算法相比,所述方法可以在达到同一精度或者更高精度的同时,实现更高的网络稀疏度,大大的减少了参数存储,减少网络训练的时间并提升卷积神经网络在图像分类领域的应用效率。

【技术实现步骤摘要】
基于固定基正则化的神经网络参数稀疏化方法
本专利技术属于人工智能领域,涉及深度学习和机器学习算法领域,具体涉及一种基于固定基正则化的神经网络参数稀疏化方法,尤其涉及一种基于固定基正则化的卷积神经网络参数稀疏化的方法。
技术介绍
深度神经网络尤其是卷积神经网络广泛应用于人工智能领域,包括图像分类、目标识别、语音及自然语言处理。随着应用领域的扩大,基于图像识别与分类的卷积神经网络规模逐渐增大,大量的神经网络结构参数的存储和计算使得网络的训练时间和功耗量急速上升。在保证精确度的前提下进行神经网络参数的稀疏化(Sparsify)和网络模型的压缩变得极为重要。卷积神经网络主要包含卷积层和全连接层两个计算结构。在基于图像识别和分类的应用中,卷积层负责将输入图像数据和权重矩阵进行卷积计算处理,将输入原始数据映射到隐层特征空间;全连接层负责将卷积层输出结果映射到标记分类空间,输出分类结果。卷积神经网络中的参数主要集中在卷积层和全连接层两个计算结构内。卷积神经网络中的参数主要表示为多维矩阵的计算形式,经过多次训练后,大规模深度神经网络中的权重参数矩阵均会变成稠密的,即矩阵中包含大量非零元素,稠密矩阵的存储和计算需要消耗大量的存储空间和计算资源。因此,通过稀疏化的方法将稠密矩阵转换为稀疏矩阵,即包含大量零元的矩阵,可以大大降低计算复杂度,提高神经网络训练效率并有助于网络模型的存储压缩。传统剪枝(pruning)算法,通过将绝对值小于一定阈值的矩阵元素直接置为零的方法进行参数稀疏化,再通过重训练(fine-tune)补偿精度损失。在一定程度上可以实现网络结构的稀疏,但是对大规模参数矩阵的剪枝操作也引入了额外的计算消耗。另外重训练在补偿精确度的同时也会降低一定的稀疏度,两者之间的调和(trade-off)也是一个问题。另外还有一些基于定制化硬件平台实现的神经网络稀疏化和模型压缩算法,由于局限于特定的实现平台,在可移植性和可扩展性上存在欠缺,对于当今大规模多样性的卷积神经网络应用具有限制。因此,现已提出的神经网络稀疏化和模型压缩算法在满足应用需求方面仍不能发挥较好的作用。与本专利技术有关的参考文献:[1]SongHan,HuiziMao,andWilliamJDallly,“DeepCompression:Compressingdeepneuralnetworkswithpruning,trainedquantizationandHuffmancoding,”arXivpreprintarXiv:1510.00149,2015.[2]JiecaoYu,AndrewLukefahr,DavidPalframan,GaneshDasika,ReetuparnaDas,andScottMahlke,“Scalpel:Customizingdnnpruningtotheunderlyinghardwareparallelism”InACMSIGARCHComputerArchitectureNews,volume45,pages548-560.ACM,2017.[3]WeiWen,ChunpengWu,YandanWang,YiranChen,andHaiLi,“Learningstructuredsparsityindeepneuralnetworks,”InAdvancesinNeuralInformationProcessingSystems,pages2074-2082,2016.[4]WeiWen,CongXu,ChunpengWu,YandanWangYiranChen,andHaiLi,“Coordinatingfiltersforfasterdeepneuralnetworks,”InTheIEEEInternationalConferenceonComputerVision(ICCV),2017.[5]BoPeng,WenmingTan,ZheyangLi,ShunZhangm,DiXie,andShiliangPu,“Extremenetworkcompressionviafiltergroupapproximation,”arXivpreprintarXiv:1807.11254,2018.[6]Liu,ZhuangandLi,JianguoandShen,ZhiqiangandHuang,GaoandYan,ShoumengandZhang,Changshui,“Learningefficientconvolutionalnetworksthroughnetworkslimming,”TheIEEEInternationalConferenceonComputerVision(ICCV),pages2755—2763,IEEE,2017。
技术实现思路
本专利技术的目的是提供一种基于固定基正则化的神经网络参数稀疏化方法,所述方法是一种基于固定基正则化的卷积神经网络参数稀疏化的方法,该方法通过将大量的权重参数分解表示为低秩的固定基形式,固定基的大小及低秩均参数可进行调节,对全局共享卷积核的固定基还可以进行折叠操作,再对固定基进行部分正则化和剪枝处理,进行卷积神经网络的稀疏化训练;所述方法可克服传统神经网络稀疏化算法的障碍,在达到更高的稀疏度和精确度的同时,降低算法计算量和计算复杂度,大大减少权重参数的存储空间,提高卷积神经网络的训练成本和效率;此外,所述固定基的运用是一种便于硬件实现的方法,且本专利技术不局限于任何定制硬件平台实现,具有更高的应用和实现的灵活性。为了达到上述目的,本专利技术的
技术实现思路
是:一种基于固定基正则化的神经网络参数稀疏化方法,主要在图像识别和分类应用中进行卷积神经网络的模型优化,其步骤如下(如图1所示):步骤201:读入原始图片,进行大小、格式等归一化处理,并增加随机噪声、翻转等图片预处理过程,生成输入的图片数据;步骤202:卷积神经网络卷积层的卷积核和全连接层的权重参数均可进行稀疏化处理,将两类参数统一称为权重参数并以卷积核形式为例,一般用多维矩阵来表示;权重参数的固定基低秩分解表示可以分为逐层权重参数固定基分解和可折叠的固定基分解两种情况,处理过程略有不同,表示为两个分步骤21和22:分步骤21:逐层进行的权重参数固定基低秩分解,对于第l层权重参数,原始卷积核其中Ml和Nl表示卷积核的长和宽,Cl表示通道数目,Fl表示卷积核数目。将原始四维张量的卷积核改写为相同元素数目的形式,选取低秩参数α(α<<MlNl<<ClFl),可将卷积核低秩分解为Wl=Tl*Al*Sl其中具体形式如图2所示;每一个选定的低秩参数α代表一组固定基Wl,可选取多个低秩参数αi并将卷积核表示为多组固定基的和的形式:分步骤22:可折叠的权重参数固定基分解,该情况主要适用于包含多层相同或相似卷积层结构的卷积神经网络模型,通过建立全局共享的权重并进行可折叠的固定基分解,为稀疏化训练模型进行参数准备;为进行对比,以单层卷本文档来自技高网
...

【技术保护点】
1.一种基于固定基正则化的神经网络参数稀疏化方法,其特征在于,通过将大量的权重参数分解表示为低秩的固定基形式,再对固定基进行部分正则化和剪枝处理,进行卷积神经网络的稀疏化训练;所述方法在达到更高的稀疏度和精确度的同时,降低算法计算量和计算复杂度,大大减少权重参数的存储空间,提高卷积神经网络的训练成本和效率,其包括如下步骤:/n步骤201:读入原始图片,进行大小、格式等归一化处理,并增加随机噪声、翻转等图片预处理过程,生成输入的图片数据;/n步骤202:卷积神经网络卷积层的卷积核和全连接层的权重参数均可进行稀疏化处理,将两类参数统一称为权重参数并以卷积核形式为例,一般用多维矩阵来表示;权重参数的固定基低秩分解表示可以分为逐层权重参数固定基分解和可折叠的固定基分解两种情况,处理过程略有不同,表示为两个分步骤21和22:/n分步骤21:逐层进行的权重参数固定基低秩分解,对于第l层权重参数,原始卷积核

【技术特征摘要】
1.一种基于固定基正则化的神经网络参数稀疏化方法,其特征在于,通过将大量的权重参数分解表示为低秩的固定基形式,再对固定基进行部分正则化和剪枝处理,进行卷积神经网络的稀疏化训练;所述方法在达到更高的稀疏度和精确度的同时,降低算法计算量和计算复杂度,大大减少权重参数的存储空间,提高卷积神经网络的训练成本和效率,其包括如下步骤:
步骤201:读入原始图片,进行大小、格式等归一化处理,并增加随机噪声、翻转等图片预处理过程,生成输入的图片数据;
步骤202:卷积神经网络卷积层的卷积核和全连接层的权重参数均可进行稀疏化处理,将两类参数统一称为权重参数并以卷积核形式为例,一般用多维矩阵来表示;权重参数的固定基低秩分解表示可以分为逐层权重参数固定基分解和可折叠的固定基分解两种情况,处理过程略有不同,表示为两个分步骤21和22:
分步骤21:逐层进行的权重参数固定基低秩分解,对于第l层权重参数,原始卷积核其中Ml和Nl表示卷积核的长和宽,Cl表示通道数目,Fl表示卷积核数目;将原始四维张量的卷积核改写为相同元素数目的形式,选取低秩参数α(α<<MlNl<<ClFl),可将卷积核低秩分解为
Wl=Tl*Al*Sl
其中每一个选定的低秩参数α代表一组固定基Wl,选取多个低秩参数αi并将卷积核表示为多组固定基的和的形式:



分步骤22:可折叠的权重参数固定基分解,该情况主要适用于包含多层相同或相似卷积层结构的卷积神经网络模型,通过建立全局共享的权重并进行可折叠的固定基分解,为稀疏化训练模型进行参数准备;
对于第l层权重参数,将原始四维张量的卷积核改写为相同元素数目的形式,引入折叠参数β,可折叠卷积核维度调整为形式;
选取低秩参数可将卷积核低秩分解为



其中对于多组可折叠低秩固定基情况,取多个低秩参数可同样表示为求和的形式:



步骤203:进行无稀疏化处理的常规卷积神经网络预训练,不对任何参数进行剪枝或者正则化处理,使用Adam梯度优化器进行重复训练;
预训练的过程是使卷积神经网络进行前期的学习,在没有引入稀疏化处理之前,通过不断调整稀疏化操作之外的其他超参数,促使经过低秩固定基分解卷积核和权...

【专利技术属性】
技术研发人员:杨帆苏仰锋曾璇文玮婧
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1