基于平衡权重稀疏和GroupLasso正则化的自适应DNN压缩方法技术

技术编号:38219015 阅读:8 留言:0更新日期:2023-07-25 11:30
本发明专利技术公开了一种基于平衡权重稀疏和GroupLasso正则化的自适应DNN压缩方法,属于模型压缩领域。该方法根据要满足的模型推理速度要求和模型部署时的存储大小限制,从而完成DNN的自适应模型剪枝。本发明专利技术结合多种剪枝方法并面向实时嵌入式系统对模型进行剪枝,主要包括以下步骤:引入模型参数,添加正则项定义模型优化问题,预训练神经网络模型,然后针对预训练模型的全连接层进行平衡权重稀疏剪枝,针对平衡权重稀疏剪枝后的模型卷积层进行结构化剪枝和节点剪枝,最后根据是否满足约束选择迭代剪枝或者结束剪枝得到压缩后模型。择迭代剪枝或者结束剪枝得到压缩后模型。择迭代剪枝或者结束剪枝得到压缩后模型。

【技术实现步骤摘要】
基于平衡权重稀疏和Group Lasso正则化的自适应DNN压缩方法


[0001]本专利技术属于神经网络模型压缩技术,具体涉及一种结合多种剪枝方法实现的自适应DNN压缩技术,尤其是基于平衡权重稀疏和Group Lasso正则化的自适应DNN压缩方法。

技术介绍

[0002]随着近年来计算系统的发展,特别是图形处理单元(Graphics Processing Unit,GPU)的发展,人工智能的各类应用迅速增长,导致机器学习技术,特别是深度学习技术的快速发展。深度学习是指使用由多个非线性处理单元(神经元)之间的一组连接(权重)组成的深层人工神经网络。这些模型已成功应用于计算机视觉、语音、自然语言处理等领域。然而,为了追求更高的准确率,深度神经网络的发展趋势是网络规模的指数增长以及对计算复杂度和内存消耗增加的增加。因此,资源受限的系统无法运行需要高计算成本的先进DNN。例如,直接将AlexNet部署到手机、无人机、自动驾驶汽车等设备上进行实时图像分类是不现实的。解决这一挑战的可行方案是DNN压缩,旨在去除非关键模型参数,如连接和节点,同时保持其性能尽可能高。
[0003]现阶段已有多种模型方法提高了DNN的实用性。一般分为四类:低秩分解、网络量化、知识蒸馏和网络剪枝。低秩分解通过分解高维权重张量直接压缩网络。然而,需要昂贵计算量的分解操作是以逐层方式进行的,其整体性能得不到保证。网络量化将模型参数映射为一组有限值,以降低存储成本,但性能会下降。知识蒸馏的基本思想是将从深层网络中获取的知识转移到浅层网络中,使其输出概率之间的KL散度最小。这一类的一个缺点是模型假设往往过于严格,在实际应用中难以满足。最后一种,网络剪枝,被认为是最有前途的压缩策略,它可以有效地去除导致过拟合的冗余参数,从而加速推理过程。

技术实现思路

[0004]专利技术目的:本专利技术提供一种基于平衡权重稀疏和Group Lasso正则化的自适应DNN压缩方法,完成对神经网络模型推理过程的加速以满足在边缘系统实时运行的要求、对神经网络模型大小的压缩以满足嵌入式系统部署和模型更新的模型储存大小限制。
[0005]技术方案:一种基于平衡权重稀疏和Group Lasso正则化的自适应DNN压缩方法,包括以下步骤:
[0006](1)构建神经网络每层权重矩阵的集合W,添加正则项定义模型优化问题,之后预训练神经网络模型;
[0007](3)通过给损失函数添加权重稀疏惩罚正则项实现对全连接层权重的稀疏,针对预训练模型的全连接层进行平衡权重稀疏剪枝,针对平衡权重稀疏剪枝后的模型卷积层进行结构化剪枝和节点剪枝;
[0008](3)重训练模型提高模型准确率,并判断是否满足模型推理速度和模型大小的约束。
[0009]基于上述方法,其中步骤(1)构建神经网络每层权重矩阵的集合W的具体过程如下:
[0010]设神经网络中卷积层共M层、全连接层共N层,所述的神经网络每层权重矩阵的集合W表达式如下:
[0011]W={W1,...W
M
,W
M+1
,...,W
M+N
}
[0012]A={A1,...A
M
,A
M+1
,...,A
M+N
}
[0013]A
i
={A
ijk
∈{0,1}}
[0014]其中W为神经网络每层权重矩阵的集合,(W
i
,0<i≤M)指第i层卷积层的权重矩阵,(W
i
,M<i≤M+N)指第i层全连接层的权重矩阵,(A
i
,M<i≤M+N)矩阵大小和(W
i
,M<i≤M+N)相同,A
i
是一个二维矩阵,j表示矩阵的行,k表示矩阵的列,A
ijk
指A
i
第j行第k列的元素,即A
i
中每个元素为0或1,0代表W
i
对应位置的权重被设为0,1表示保留原值;
[0015]针对卷积层中第i层,设有个输入通道、个输出通道,该卷积层中有组卷积核,每组中有个卷积核,构建有如下表示式:
[0016][0017]C={C
i
},0<i≤M
[0018]C
i
为的矩阵,矩阵中每个元素只能为0或1,0代表被剪枝,1表示保留,C是C
i
矩阵的集合。
[0019]进一步的,步骤(1)中,添加正则项定义模型优化问题的过程具体如下:
[0020]对于神经网络中卷积层共M层、全连接层共N层,令表示一个样本的一对输入和输出,其中t是一个批次中的训练数据个数;
[0021]神经网络模型的损失函数定义为:
[0022][0023]其中l(f(x
j
,W),y
j
)是神经网络的误差表达式,为损失函数;
[0024]对于分类问题表示为其为交叉熵损失函数,o表示分类问题的种类数量,f(x
j
,W)是预测的输出值,y
j
是数据真实输出值,W指神经网络中的权重集;
[0025]为了实现对全连接层权重的稀疏,需要给损失函数添加权重稀疏惩罚正则项,具体计算通过下式实现:
[0026][0027]其中超参数λ1>0,控制正则化项对损失函数的比重,当λ1较大时,会使学到的权重参数的元素较接近0,后一项为L2范数的平方,运算符表示矩阵对应位置元素相乘的乘法;
[0028]为了减去卷积层中不重要的过滤器、通道以及卷积核,采用Group Lasso正则化方法,进而实现某些组的所有权重归零,具体操作如下:
[0029]记g(
·
)=||
·
||
g
,为Group Lasso正则化,引入下式:
[0030][0031]具体的:
[0032][0033]其中|W|指W中权重的数量,w
i
指W中第i个权重,针对通道、Filter、节点分成通道组、Filter组和节点组,然后通过Group Lasso正则化将其中某些组的所有权重归零;
[0034]由此将神经网络模型优化问题定义为:
[0035][0036][0037]其中展开后为因此对每位权重更新时的梯度为正则化更新为η为超参数,是一个正数,表示学习率,Δδ指训练前后精确度可接受的损失。
[0038]进一步的,步骤(1)中,预训练神经网络的过程包括训练数据、损失函数和优化算法;其中训练数据由剪枝前的神经网络决定,优化算法由于新添的正则项均是可微的,通过SGD进行解决。其中SGD为随机梯度下降算法。
[0039]进一步的,所述方法的步骤(2)具体包括以下步骤:
[0040](21)针对预训练模型的全连本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于平衡权重稀疏和Group Lasso正则化的自适应DNN压缩方法,其特征在于,包括以下步骤:(1)构建神经网络每层权重矩阵的集合W,添加正则项定义模型优化问题,之后预训练神经网络模型;(2)通过给损失函数添加权重稀疏惩罚正则项实现对全连接层权重的稀疏,针对预训练模型的全连接层进行平衡权重稀疏剪枝,针对平衡权重稀疏剪枝后的模型卷积层进行结构化剪枝和节点剪枝;(3)重训练模型提高模型准确率,并判断是否满足模型推理速度和模型大小的约束。2.根据权利要求1所述的基于平衡权重稀疏和Group Lasso正则化的自适应DNN压缩方法,其特征在于:步骤(1)构建神经网络每层权重矩阵的集合W的具体过程如下:设神经网络中卷积层共M层、全连接层共N层,所述的神经网络每层权重矩阵的集合W表达式如下:W=(W1,...W
M
,W
M+1
,...,W
M+N
}A=(A1,

A
M
,A
M+1


,A
M+N
}A
i
={A
ijk
∈(0,1}}其中W为神经网络每层权重矩阵的集合,(W
i
,0<i≤M)指第i层卷积层的权重矩阵,(W
i
,M<i≤M+N)指第i层全连接层的权重矩阵,(A
i
,M<i≤M+N)矩阵大小和(W
i
,M<i≤M+N)相同,A
i
是一个二维矩阵,j表示矩阵的行,k表示矩阵的列,A
ijk
指A
i
第j行第k列的元素,即A
i
中每个元素为0或1,0代表W
i
对应位置的权重被设为0,1表示保留原值;针对卷积层中第i层,设有个输入通道、个输出通道,该卷积层中有组卷积核,每组中有个卷积核,构建有如下表示式:C={C
i
},0<i≤MC
i
为的矩阵,矩阵中每个元素只能为0或1,0代表被剪枝,1表示保留,C是C
i
矩阵的集合。3.根据权利要求1所述的基于平衡权重稀疏和Group Lasso正则化的自适应DNN压缩方法,其特征在于:步骤(1)中,添加正则项定义模型优化问题的过程具体如下:对于神经网络中卷积层共M层、全连接层共N层,令表示一个样本的一对输入和输出,其中t是一个批次中的训练数据个数;神经网络模型的损失函数定义为:其中l(f(x
j
,W),y
j
)是神经网络的误差表达式,为损失函数;对于分类问题表示为其为交叉熵损失函数,o表示分类问题的种类数量,f(x
j
,W)是预测的输出值,y
j
是数据真实输出值,W指神经网络中的权重集;为了实现对全连接层权重的稀疏,需要给损失函数添加权重稀疏惩罚正则项,具体计
算通过下式实现:其中超参数λ1>0,控制正则化项对损失函数的比重,当λ1较大时,会使学到的权重参数的元素较接近0,后一项为L2范数的平方,运算符表示矩阵对应位置元素相乘的乘法;为了减去卷积层中不重要的过滤器、通道以及卷积核,采用Group Lasso正则化方法,进而实现某些组的所有权重归零,具体操作如下:记g(
·
)=||
·
||
g
,为Group...

【专利技术属性】
技术研发人员:张彤陈聪朱琨冯佳欣
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1