【技术实现步骤摘要】
一种用于深度神经网络的通道剪枝方法
本专利技术涉及一种用于深度神经网络的通道剪枝方法,属于信息
,特别是属于人工智能
技术介绍
近几年中,深度神经网络被广泛应用于图像分类,物体检测,语音识别等领域之中,取得了比传统机器学习方法更高的准确率。不仅如此,这些深度神经网络在复杂的系统中也得到广泛的应用,例如自动驾驶,癌症诊断,复杂游戏的策略搜索等。深度神经网络在很多识别任务中已经大大超越了人类识别的准确率以及传统的技术方法,带来巨大的性能提升。这些性能的提升是由于深度神经网络拥有提取大数据高级特征的能力,从而获得对数据空间的有效表示。随着神经网络的加深,网络参数量和计算量也愈加庞大。1998年设计的LeNet使用少于1M的参数量来解决手写体数字的识别问题;152层的Resnet-152有超过60M的参数量且需要超过20G的浮点算力。庞大的参数量和计算量使得深度神经网络在训练和使用时需要消耗大量的计算资源和内存,导致其难以部署在计算资源和内存均受限的移动设备和嵌入式系统上。如何在不损失神经网络精度的情况下压缩模型体积,减少模型推理的计算量,已经成为当前深度 ...
【技术保护点】
1.一种用于深度神经网络的通道剪枝方法,其特征在于:所述方法包括下列操作步骤:(1)基于深度神经网络中连续两个网络层的关联关系,根据输出输入通道离散正则化,定义输出输入通道离散正则化项Roic(W
【技术特征摘要】
1.一种用于深度神经网络的通道剪枝方法,其特征在于:所述方法包括下列操作步骤:(1)基于深度神经网络中连续两个网络层的关联关系,根据输出输入通道离散正则化,定义输出输入通道离散正则化项Roic(Wl,Wl+1)如下:上式中,Wl和Wl+1分别是所述深度神经网络第l层和l+1层的权重集合,表示Wl中的第i个输出通道的权重矢量,表示Wl+1中第i个输入通道的权重矢量,符号表示把和连接concatenation起来,OCl表示所述深度神经网络第l层的输出通道数,||||oic表示L-oic范数,下标oic取值为1或2;(2)基于前述的输出输入通道离散正则化项,定义深度神经网络的优化目标函数J(W)如下:上式中,W表示所述深度神经网络的权重集合,D表示训练数据集合,Loss(W,D)表示所述深度神经网络在训练数据集合D上的损失函数,R(W)表示非结构正则化项Non-StructuredRegularization,λ是非结构正则化项的超参数,λs是所述的输出输入通道离散正则化项的超参数;(3)利用步骤(2)所定义的深度神经网络的优化目标函数J(W),用训练数据集合D,对所述的深度神经网络进行训练;在训练结束后,所述的深度神经网络的大量冗余通道中的特征被更彻底的挤压到了少量重要通道中,从而获得结构化稀疏的深度神经网络;(4)对步骤(3)所获得的结构化稀疏的深度神经网络,进行循环迭代通道剪枝,获得结构紧密的深度神经网络;具体过程是:在每次通道剪枝迭代中,采用全局贪婪搜索,在所有网络层中全局地搜索冗余通道,并且根据通道重要性的大小,贪婪地去除重要性最低的通道;并且在每次通道剪枝迭代中,对每层网络的最大剪枝比例做了限制,不能有超过设定比例的通道被移除。2.根据权利要求1所述的一种用于深度神经网络的通道剪枝方法,其特征在于:基于前面所述的输出输入通道离散正则化,使用通道能量来计算步骤(4)中所述的通道重要性,具体计算方法如下式所示:上式中,...
【专利技术属性】
技术研发人员:戚琦,王晶,王敬宇,李家仕,廖建新,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。