神经网络模型量化压缩方法、电子设备和存储介质技术

技术编号:38623038 阅读:14 留言:0更新日期:2023-08-31 18:26
本发明专利技术公开神经网络模型量化压缩方法、电子设备和存储介质,其中,方法包括:对目标预训练模型进行参数扩充,添加量化压缩所需要的参数;对所述参数使用交替方向乘子法,求得不同固定压缩比下的多个最佳的量化压缩模型参数,所述多个最佳的量化压缩模型参数对应于多个压缩模型;对所述多个压缩模型的不同组成部分进行基于Hessian矩阵的敏感度分析,用于进行混合精度量化压缩搜索,其中,混合精度量化压缩搜索能够提供在某一压缩比下最优的模型组合方法;获取最终基于混合精度搜索的最优量化压缩模型。压缩模型。压缩模型。

【技术实现步骤摘要】
神经网络模型量化压缩方法、电子设备和存储介质


[0001]本专利技术属于神经网络模型量化压缩
,尤其涉及神经网络模型量化压缩方法、电子设备和存储介质。

技术介绍

[0002]近年来,使用深度神经网络(DNN)作为特征提取器的说话人确认系统表现出优异的性能。最典型和最广泛使用的说话人特征提取网络结构是ResNet和ECAPATDNN;它们的性能随着网络的加深而提高。大型模型具有更有竞争力的表示能力。尽管如此,由于内存占用过大,深层架构的应用场景是有限的。因此,缩小深度神经网络的规模已经成为一个重要的研究课题。
[0003]以前的研究已经证明卷积神经网络中存在参数冗余,合理压缩深度神经网络在理论上是可行的。以往的研究表明,知识蒸馏、模型修剪和模型量化都是缩小深度神经网络规模的有效方法。在这些方法中,知识蒸馏法用小尺寸的模型取代了大模型,而模型修剪法则删除了一些模型的参数。与它们不同的是,量化压缩保留了原始模型的结构完整性。但是以往的工作都没办法用一个紧凑的模型实现一个有竞争力的说话人确认系统。

技术实现思路

[0004]本专利技术实施例提供一种神经网络模型量化压缩方法、电子设备和存储介质,用于至少解决上述技术问题之一。
[0005]第一方面,本专利技术实施例提供一种神经网络模型量化压缩方法,包括:对目标预训练模型进行参数扩充,添加量化压缩所需要的参数;对所述参数使用交替方向乘子法,求得不同固定压缩比下的多个最佳的量化压缩模型参数,所述多个最佳的量化压缩模型参数对应于多个压缩模型;对所述多个压缩模型的不同组成部分进行基于Hessian矩阵的敏感度分析,用于进行混合精度量化压缩搜索,其中,混合精度量化压缩搜索能够提供在某一压缩比下最优的模型组合方法;获取最终基于混合精度搜索的最优量化压缩模型。
[0006]第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例神经网络模型量化压缩方法的步骤。
[0007]第三方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的神经网络模型量化压缩方法的步骤。
[0008]本申请实施例的方法,设计了一套可以快速训练的,保证系统的性能不会有明显下降的量化算法用于优化压缩系统的性能。本申请实施例实现了基于预训练模型的量化压缩,避免了过长的训练时间。同时,专利技术人设计的系统寻找到了在全系统性能几乎不受影响
的前提下的最大的压缩比,实现了模型压缩和模型性能之间的均衡。
附图说明
[0009]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1为本专利技术一实施例提供的一种神经网络模型量化压缩方法的流程图;
[0011]图2为本专利技术一实施例提供的神经网络模型量化压缩系统框图;
[0012]图3为本专利技术一实施例提供的ResNet34量化模型第28层的部分权重值和不同量化精度下同一层的平均参数偏差;
[0013]图4为本专利技术一实施例提供的Voxceleb1数据集上全精度基线和拟议的量化压缩系统的性能比较;
[0014]图5为本专利技术一实施例提供的8位统一量化的ResNet34的实验结果;
[0015]图6为本专利技术一实施例提供的混合精度量化中ResNet34各层的量化精度数;
[0016]图7是本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0017]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]请参考图1,其示出了本申请的神经网络模型量化压缩方法一实施例的流程图。上述方法可以用于说话人确认系统中。
[0019]如图1所示,在步骤101中,对目标预训练模型进行参数扩充,添加量化压缩所需要的参数;
[0020]在步骤102中,对所述参数使用交替方向乘子法,求得不同固定压缩比下的多个最佳的量化压缩模型参数,所述多个最佳的量化压缩模型参数对应于多个压缩模型;
[0021]在步骤103中,对所述多个压缩模型的不同组成部分进行基于Hessian矩阵的敏感度分析,用于进行混合精度量化压缩搜索,其中,混合精度量化压缩搜索能够提供在某一压缩比下最优的模型组合方法;
[0022]在步骤104中,获取最终基于混合精度搜索的最优量化压缩模型。
[0023]本实施例的方法,设计了一套可以快速训练的,保证系统的性能不会有明显下降的量化算法用于优化压缩系统的性能。本申请实施例实现了基于预训练模型的量化压缩,避免了过长的训练时间。进一步的,专利技术人设计的系统寻找到了在全系统性能几乎不受影响的前提下的最大的压缩比,实现了模型压缩和模型性能之间的均衡。
[0024]在一些可选的实施例中,所述目标预训练模型为深度神经网络,所述对目标预训练模型进行参数扩充,添加量化压缩所需要的参数包括:对所述深度神经网络的每个卷积层使用对应的量化参数对当前卷积层进行量化操作。
[0025]在一些可选的实施例中,所述对所述参数使用交替方向乘子法,求得不同固定压缩比下的多个最佳的量化压缩模型参数包括:利用交替方向乘子法迭代更新所述深度神经网络模型的量化参数得到对应于所述深度神经网络模型的各个卷积层的量化权重;基于不同固定压缩比得到多个深度神经网络的量化压缩模型参数。
[0026]在一些可选的实施例中,对所述多个压缩模型的不同组成部分进行基于Hessian矩阵的敏感度分析,用于进行混合精度量化压缩搜索:对于所述深度神经网络的每个卷积层,通过计算Hessian矩阵H的迹线来评估每个卷积层对量化压缩的敏感度;根据所述每个卷积层的敏感度,对所述每个卷积层进行不同精度的量化处理。
[0027]在一些可选的实施例中,所述获取最终基于混合精度搜索的最优量化压缩模型包括:限制混合精度模型的最大尺寸,选择一组具有最低总敏感度的混合精度组合;利用所得到的混合精度量化组合,通过对每个卷积层的量化精度进行不同的初始化,生成混合精度量化模型。
[0028]在一些可选的实施例中,所述神经网络模型量化压缩方法用于说话人确认系统。
[0029]在一些可选的实施例中,所述说话人确认系统ResNet结构中的卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型量化压缩方法,包括:对目标预训练模型进行参数扩充,添加量化压缩所需要的参数;对所述参数使用交替方向乘子法,求得不同固定压缩比下的多个最佳的量化压缩模型参数,所述多个最佳的量化压缩模型参数对应于多个压缩模型;对所述多个压缩模型的不同组成部分进行基于Hessian矩阵的敏感度分析,用于进行混合精度量化压缩搜索,其中,混合精度量化压缩搜索能够提供在某一压缩比下最优的模型组合方法;获取最终基于混合精度搜索的最优量化压缩模型。2.根据权利要求1所述的方法,其中,所述目标预训练模型为深度神经网络,所述对目标预训练模型进行参数扩充,添加量化压缩所需要的参数包括:对所述深度神经网络的每个卷积层使用对应的量化参数对当前卷积层进行量化操作。3.根据权利要求2所述的方法,其中,所述对所述参数使用交替方向乘子法,求得不同固定压缩比下的多个最佳的量化压缩模型参数包括:利用交替方向乘子法迭代更新所述深度神经网络模型的量化参数得到对应于所述深度神经网络模型的各个卷积层的量化权重;基于不同固定压缩比得到多个深度神经网络的量化压缩模型参数。4.根据权利要求3所述的方法,其中,对所述多个压缩模型的不同组成部分进行基于Hessian矩阵的敏感度分析,用于进行混合精度量化压缩搜索:...

【专利技术属性】
技术研发人员:钱彦旻王浩宇刘贝吴逸飞陈正阳
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1