一种基于卷积神经网络的模型稀疏方法技术

技术编号:33351146 阅读:19 留言:0更新日期:2022-05-08 09:56
本申请提供一种基于卷积神经网络的模型稀疏方法。解决了提高稀疏模型精度的技术问题。模型稀疏方法包括:根据预训练模型的稀疏需求,设定稀疏比例s

【技术实现步骤摘要】
一种基于卷积神经网络的模型稀疏方法


[0001]本申请涉及卷积神经网络
,尤其涉及一种基于卷积神经网络的模型稀疏方法。

技术介绍

[0002]卷积神经网络中涉及大量的数据量和计算量,直接使用训练后的模型,往往参数量较大,推理计算量和时间较长。通过对模型进行参数稀疏化,能够有效地降低计算复杂度和存储开销,从而满足端侧设备实时处理的需求。模型稀疏的将大量的冗余变量去除,只保留与响应变量最相关的解释变量,简化了模型的同时却保留了数据集中最重要的信息,有效地解决了高维数据集建模中的诸多问题,稀疏模型具有更好的解释性,便于数据可视化、减少计算量和传输存储。
[0003]目前,模型稀疏算法通常需要根据特定的指标,例如参数的绝对值大小,将一定比例的参数设置为待稀疏的参数,并置零,从而完成对模型的稀疏。为保持模型精度,在模型稀疏之前需要对待稀疏的参数增加L2或者L1范数罚正则化项,然后进行模型训练,使得在训练的过程中,将部分参数值惩罚训练趋向于0,在完成该部分参数压缩的训练后,将待稀疏的参数置0,从而得到稀疏后的模型,再次对稀疏后模型进行重训练,从而得到最后满足精度需求的稀疏模型。
[0004]然而,通过上述方法不能满足稀疏模型日益提高的精度需求。

技术实现思路

[0005]本申请提供了一种基于卷积神经网络的模型稀疏方法,解决了提高稀疏模型精度的技术问题。
[0006]第一方面,本申请提供一种基于卷积神经网络的模型稀疏方法,模型稀疏方法包括:
[0007]根据预训练模型的稀疏需求,设定稀疏比例s
l

[0008]根据所述s
l
,稀疏所述预训练模型中每层的参数W
l
,得到稀疏模型;
[0009]计算第一中间结果和第二中间结果的误差损失;其中,所述第一中间结果为所述预训练模型第1层的中间结果;所述第二中间结果为所述稀疏模型中第1层的中间结果;
[0010]根据预设权重,对所述误差损失加权,得到加权结果;
[0011]将所述加权结果累加至模型预测误差上,得到最终损失;
[0012]根据所述最终损失,更新所述稀疏模型的网络参数。
[0013]在一些实施例中,所述根据所述s
l
,稀疏所述预训练模型中每层的参数W
l
,得到稀疏模型的步骤,包括:
[0014]根据Topk算法,找到当前层的阈值t
l
=TOPk(abs(W
l
),n
l
*(1

s
l
));其中,n
l
表示W
l
的参数数目,abs表示取绝对值;
[0015]根据所述阈值t
l
,对所述参数W
l
进行稀疏;
[0016]若abs(W
l
)大于等于阈值t
l
,则保留所述参数W
l

[0017]若abs(W
l
)小于阈值t
l
,则所述参数W
l
置零。
[0018]在一些实施例中,所述计算第一中间结果和第二中间结果的误差损失的步骤中;
[0019]对于同样的输入样本,添加均方误差loss
l
,用以评估稀疏模型的第1层误差损失。
[0020]在一些实施例中,所述均方误差loss
l
的公式为:
[0021][0022]其中,表示所述预训练模型中第1层的输出,表示学生模型第1层的输出,λ
l
为第1层损失的权重超参。
[0023]在一些实施例中,所述将所述加权结果累加至模型预测误差上,得到最终损失的步骤中;
[0024]所述最终损失Loss
total
的公式为:
[0025][0026]在一些实施例中,所述根据所述最终损失,更新所述稀疏模型的网络参数的步骤中;
[0027]基于链式法则和梯度下降算法,对网络参数进行迭代更新。
[0028]第二方面,本申请还提供一种卷积处理系统,系统被配置为:
[0029]根据预训练模型的稀疏需求,设定稀疏比例s
l

[0030]根据所述s
l
,稀疏所述预训练模型中每层的参数W
l
,得到稀疏模型;
[0031]计算第一中间结果和第二中间结果的误差损失;其中,所述第一中间结果为所述预训练模型第1层的中间结果;所述第二中间结果为所述稀疏模型中第1层的中间结果;
[0032]根据预设权重,对所述误差损失加权,得到加权结果;
[0033]将所述加权结果累加至模型预测误差上,得到最终损失;
[0034]根据所述最终损失,更新所述稀疏模型的网络参数。
[0035]由以上实施例可知,本申请通过根据预训练模型的稀疏需求,设定稀疏比例s
l
;根据所述s
l
,稀疏所述预训练模型中每层的参数W
l
,得到稀疏模型;计算第一中间结果和第二中间结果的误差损失;其中,所述第一中间结果为所述预训练模型第1层的中间结果;所述第二中间结果为所述稀疏模型中第1层的中间结果;根据预设权重,对所述误差损失加权,得到加权结果;将所述加权结果累加至模型预测误差上,得到最终损失;根据所述最终损失,更新所述稀疏模型的网络参数。本申请通过利用稀疏前的网络中间层结果为稀疏后的网络提供指导训练,加速收敛过程,提升网络精度。
附图说明
[0036]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1为本申请实施例提供的一种基于卷积神经网络的模型稀疏方法的流程示意图;
[0038]图2为本申请实施例提供的对网络参数进行迭代更新的流程示意图。
具体实施方式
[0039]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行完整、清楚的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0040]需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
[0041]本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
[0042]术语“包括”和“具有”本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络的模型稀疏方法,其特征在于,包括:根据预训练模型的稀疏需求,设定稀疏比例s
l
;根据所述s
l
,稀疏所述预训练模型中每层的参数W
l
,得到稀疏模型;计算第一中间结果和第二中间结果的误差损失;其中,所述第一中间结果为所述预训练模型第1层的中间结果;所述第二中间结果为所述稀疏模型中第1层的中间结果;根据预设权重,对所述误差损失加权,得到加权结果;将所述加权结果累加至模型预测误差上,得到最终损失;根据所述最终损失,更新所述稀疏模型的网络参数。2.根据权利要求1所述的基于卷积神经网络的模型稀疏方法,其特征在于,所述根据所述s
l
,稀疏所述预训练模型中每层的参数W
l
,得到稀疏模型的步骤,包括:根据Topk算法,找到当前层的阈值t
l
=TOPk(abs(W
l
),n
l
*(1

s
l
));其中,n
l
表示W
l
的参数数目,abs表示取绝对值;根据所述阈值t
l
,对所述参数W
l
进行稀疏;若abs(W
l
)大于等于阈值t
l
,则保留所述参数W
l
;若abs(W
l
)小于阈值t
l
,则所述参数W
l

【专利技术属性】
技术研发人员:刘阳鲁金铭
申请(专利权)人:南京风兴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1