一种基于相似度正则的神经网络剪枝方法技术

技术编号：36884082 阅读：20 留言：0更新日期：2023-03-15 21:23

本发明专利技术公开了一种基于相似度正则的神经网络剪枝方法。本方法为：1)对待处理的神经网络进行预训练；2)对预训练后的神经网络进行剪枝：首先设定神经网络的稀疏度为s％；然后计算神经网络参数的第s分位数，将参数绝对值小于该第s分位数的参数全局置零，得掩码m；根据所得掩码m更新所述神经网络的权重矩阵w；3)对剪枝后的神经网络进行微调。本发明专利技术通过提高网络权重矩阵与0矩阵的余弦相似度来降低输出对输入的依赖，从而提高预测的鲁棒性，这样只有少部分输入参与最终的计算，而大部分输入都被抛弃；因此，不仅稀疏网络的预测性能获得了提升，神经网络也可以实现更高的稀疏度。神经网络也可以实现更高的稀疏度。神经网络也可以实现更高的稀疏度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于相似度正则的神经网络剪枝方法

[0001]本专利技术属于人工智能领域，是一种通过引入相似度正则化来获得改进的神经网络剪枝方法。

技术介绍

[0002]作为人工智能领域的一个分支，神经网络已经在计算机视觉、自然语言处理等领域得到了广泛应用，然而一个神经网络往往由上千万的参数构成，这为模型的训练与推理都带来了巨大的开销。因此，研究者们提出了许多模型压缩方法。在这些方法中，神经网络剪枝通过直接移除冗余权重来减少参数量，这种将预训练的密集网络经过剪枝所获得的模型被称为稀疏网络，而被移除的权重占原始权重数量的比值被标记为稀疏度。网络的稀疏度越高则参数量越小，尽管其性能也会受到一定的影响，但所需要的计算和存储开销大幅降低。因此，业内经常在算力孱弱的边缘设备上部署极稀疏网络，以提高响应速度。
[0003]为了提高稀疏网络的精度，Han等人首先在NeurIPS 2015中提出在预训练阶段应用L2正则项来简化密集网络，之后Liu等人在ICCV 2017中发现L1正则项的效果更好。一般来说，在网络剪枝前的预训练过程中应用较高的惩罚权重可以提升正则项的作用，从而使后续获得的稀疏网络表现更好，但过高的惩罚权重本身就会干扰训练过程，因此以往的工作只能设置很小的惩罚权重，导致最终对稀疏网络所产生的性能提升十分有限。

技术实现思路

[0004]针对现有技术中存在的问题，本专利技术的目的在于提供一种基于相似度正则的神经网络剪枝方法，旨在为神经网络训练中引入强力的正则化效果，从而简化后续的剪枝流程。与之前的基于范数的正...

【技术保护点】

【技术特征摘要】
1.一种基于相似度正则的神经网络剪枝方法，其步骤包括：1)对待处理的神经网络进行预训练：11)对神经网络第i层的权重w
i
进行标准化以消除量纲，得到标准化权重计算标准化权重与0.5矩阵(即经过正则化的0矩阵)的余弦相似度γ(w
i
)，所述神经网络的层数为n层，i＝1～n，n为大于1的自然数；所述神经网络为压缩特征在内部进行单项传递的神经网络；12)将所述神经网络中所有层的余弦相似度取平均，得到所述神经网络与0矩阵的整体相似度Γ(w)；然后将整体相似度Γ(w)加入所述神经网络的损失函数中，得到损失函数其中，m为训练样本集x中的训练样本总数，y
j
为第j个训练样本x
j
的标签，CE代表交叉熵函数，λ是惩罚权重，f
w
(x
j
)为神经网络f
w
对输入训练样本x
j
的预测输出结果；13)利用所述神经网络对应的训练样本集x训练所述神经网络，利用所得损失值生成梯度对所述神经网络的参数进行优化；14)重复步骤11
‑
13)多次完成对所述神经网络的预训练；2)对预训练后的神经网络进行剪枝：首先设定神经网络的稀疏度为s％；然后计算神经网络参数的第s分位数，将参数绝对值小于该第s分位数的参数全局置零，得掩码m；根据所得掩码m更新所述神经网络的权重矩阵w；3)对剪枝后的神经网络进行微调：31)将神经网络的损失函数更新为32)利用所述训练样本集x训练所述神经网络，利用所得损失值生...

【专利技术属性】
技术研发人员：陈小军，王少璞，熊刚，赵振东，丁阳阳，李晓颖，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人