一种神经网络模型的剪枝方法及装置制造方法及图纸

技术编号:28322129 阅读:32 留言:0更新日期:2021-05-04 13:02
本申请实施例提供了一种神经网络模型的剪枝方法及装置,涉及人工智能技术领域,该方法包括:在神经网络模型中设置筛选组件,筛选组件用于对目标隐藏层输出的数据特征进行筛选,通过对神经网络模型进行训练,获得每个筛选组件的通过率,进而基于筛选组件的通过率获得筛选组件对应的目标隐藏层对神经网络模型的影响程度,从而可以直观地获知神经网络模型内部结构的重要程度,提高模型的可解释性。基于各个筛选组件的通过率,优先对通过率低的筛选组件连接的目标隐藏层进行剪枝处理,从而一方面保证了神经网络模型的模型效果,另一方面压缩了神经网络模型大小,降低模型计算复杂度,加快了模型运行速度。

【技术实现步骤摘要】
一种神经网络模型的剪枝方法及装置
本申请实施例涉及人工智能
,尤其涉及一种神经网络模型的剪枝方法及装置。
技术介绍
随着深度学习的不断发展与演化,神经网络已经被广泛应用于语音识别、计算机视觉、自然语言处理等领域。例如,在机器翻译、视频监控、自动驾驶等实际应用中,神经网络取得了非常出色的表现。尽管如此,由于神经元之间存在复杂的非线性变换及其自身高维表示形式,理解神经网络模型如何工作,以及为什么这样工作变得比较困难,进而为调试神经网络模型以及设计新的神经网络模型带来了极大挑战。近年来,有多项探索神经网络模型可解释性的方法被提出,比如,把神经网络模型作为黑盒子,通过解释模型输入输出行为的方式来分析模型的功能。虽然该方法可以分析到模型的一些规律,但是由于把模型当作黑盒子,只分析输入输出,故不能细粒度的分析模型内部的运行机理,导致很难对模型内部进行改进。
技术实现思路
本申请实施例提供了一种神经网络模型的剪枝方法及装置,用于基于神经网络内部的筛选组件的通过率对筛选组件对应的隐藏层进行剪枝处理。一方面,本申请实施例本文档来自技高网...

【技术保护点】
1.一种神经网络模型的剪枝方法,其特征在于,包括:/n基于文本样本数据对待训练神经网络模型进行训练,所述待训练神经网络模型中包括至少一个目标隐藏层和每个目标隐藏层对应连接的筛选组件,每个筛选组件根据通过率对连接的目标隐藏层输出的数据特征进行筛选并输出;/n在训练过程中根据目标损失函数调整所述待训练神经网络模型的模型参数和各个筛选组件的通过率,并当训练结果达到目标损失时获得已训练神经网络模型;/n根据已训练神经网络模型中各个筛选组件的通过率,优先对通过率低的筛选组件连接的目标隐藏层进行剪枝处理。/n

【技术特征摘要】
1.一种神经网络模型的剪枝方法,其特征在于,包括:
基于文本样本数据对待训练神经网络模型进行训练,所述待训练神经网络模型中包括至少一个目标隐藏层和每个目标隐藏层对应连接的筛选组件,每个筛选组件根据通过率对连接的目标隐藏层输出的数据特征进行筛选并输出;
在训练过程中根据目标损失函数调整所述待训练神经网络模型的模型参数和各个筛选组件的通过率,并当训练结果达到目标损失时获得已训练神经网络模型;
根据已训练神经网络模型中各个筛选组件的通过率,优先对通过率低的筛选组件连接的目标隐藏层进行剪枝处理。


2.如权利要求1所述的方法,其特征在于,所述目标损失函数包括所述待训练神经网络模型中各个筛选组件的通过率。


3.如权利要求1所述的方法,其特征在于,所述根据已训练神经网络模型中各个筛选组件的通过率,优先对通过率低的筛选组件连接的目标隐藏层进行剪枝处理,包括:
按照通过率从小到大的顺序对所述已训练神经网络模型中各个筛选组件进行排序,其中,筛选组件的通过率越大,筛选组件连接的目标隐藏层在所述目标翻译模型中的影响程度越大;
从所述已训练神经网络模型中删除排在前N位的筛选组件连接的目标隐藏层,N为预设正整数。


4.如权利要求1所述的方法,其特征在于,所述根据已训练神经网络模型中各个筛选组件的通过率,优先对通过率低的筛选组件连接的目标隐藏层进行剪枝处理,包括:
确定所述已训练神经网络模型的各个筛选组件中,通过率小于预设阈值的目标筛选组件;
将所述已训练神经网络模型中的目标筛选组件的通过率置为零。


5.如权利要求1所述的方法,其特征在于,每个筛选组件中包括多个门,每个筛选组件中门的数量与筛选组件连接的目标隐藏层输出的数据特征的数量对应,每个筛选组件的通过率是根据筛选组件中处于打开状态的门的数量确定的。


6.如权利要求1所述的方法,其特征在于,还包括:
生成所述各个筛选组件的通过率的展示页面并显示。


7.如权利要求1至6任一所述的方法,其特征在于,所述待训练神经网络模型为待训练翻译模型,所述待训练翻译模型包括编码器和解码器,所述编码器中每个隐藏层对应一个筛选组件,所述解码器中每个隐藏层对应一个筛选组件。


8.如权利要求1至6任一所述的方法,其特征在于,所述待训练神经网络模型为待训练翻译模型,所述待训练翻译模型包括多...

【专利技术属性】
技术研发人员:涂兆鹏王文轩
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1