【技术实现步骤摘要】
语音模型的量化方法、装置、服务器及存储介质
[0001]本申请实施例涉及人工智能领域,特别涉及一种语音模型的量化方法、装置、服务器及存储介质。
技术介绍
[0002]随着人工智能技术的发展,神经网络模型被广泛应用于各种领域。然而,这些模型通常需要大量的计算资源和存储空间,在移动设备和嵌入式系统等资源受限的设备上部署这些模型可能会面临性能瓶颈。
[0003]相关技术中,通常会采用模型量化的方式以减少神经网络模型的参数量和计算量。模型量化是一种将浮点计算转成低比特定点计算的技术,可以有效的降低模型计算强度、参数大小和内存消耗等。模型量化包括量化感知训练(Quantization Aware Training)和训练后量化(Post
‑
Training Quantization)等方式。
[0004]然而,量化后的模型可能具有较大的精度损失。
技术实现思路
[0005]本申请实施例提供了一种语音模型的量化方法、装置、服务器及存储介质。技术方案如下。
[0006]一方面,本申请实施例提供了一种语音模型的量化方法,方法包括:获取原始语音模型,原始语音模型为训练完成的神经网络模型;基于至少一种量化策略确定原始语音模型中待量化的目标参数;量化策略包括第一量化策略和第二量化策略中的至少一种,第一量化策略指示基于原始语音模型中权重参数的数值分布情况确定目标参数,第二量化策略指示基于原始语音模型中神经元输出的激活结果确定目标参数;对原始语音模型的目标参数进行量化,得到量化语音模型 ...
【技术保护点】
【技术特征摘要】
1.一种语音模型的量化方法,其特征在于,所述方法包括:获取原始语音模型,所述原始语音模型为训练完成的神经网络模型;基于至少一种量化策略确定所述原始语音模型中待量化的目标参数;所述量化策略包括第一量化策略和第二量化策略中的至少一种,所述第一量化策略指示基于所述原始语音模型中权重参数的数值分布情况确定所述目标参数,所述第二量化策略指示基于所述原始语音模型中神经元输出的激活结果确定所述目标参数;对所述原始语音模型的所述目标参数进行量化,得到量化语音模型;在所述量化语音模型满足模型精度需求,且所述量化语音模型满足压缩率需求的情况下,将所述量化语音模型确定为目标语音模型。2.根据权利要求1所述的方法,其特征在于,所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数,包括:基于所述原始语音模型中权重参数的数值分布情况,以及所述压缩率需求,确定第一系数阈值;将所述原始语音模型中小于所述第一系数阈值的权重参数确定为所述目标参数,其中,基于所述第一系数阈值对所述原始语音模型进行量化后得到的量化语音模型的压缩率大于或等于所述压缩率需求指示的目标压缩率。3.根据权利要求2所述的方法,其特征在于,所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数,还包括:在第i量化语音模型不满足所述模型精度需求的情况下,在第i系数阈值的基础上进行阈值下调,得到第i+1系数阈值,其中,所述第i量化语音模型基于所述第i系数阈值对所述原始语音模型进行量化得到,i为正整数;将所述原始语音模型中小于所述第i+1系数阈值的权重参数确定为所述目标参数。4.根据权利要求3所述的方法,其特征在于,所述在第i系数阈值的基础上进行阈值下调,得到第i+1系数阈值,包括:基于下调步长,对所述第i系数阈值进行阈值下调,得到所述第i+1系数阈值。5.根据权利要求3所述的方法,其特征在于,所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数,还包括:在所述阈值下调的次数达到次数阈值的情况下,基于所述第一系数阈值至第j系数阈值、第一轮精度评估结果至第j轮精度评估结果,以及所述原始语音模型中权重参数的数值分布情况,训练阈值预测模型,所述阈值预测模型用于基于权重参数的数值分布情况以及模型精度进行系数阈值预测,j为正整数;将所述模型精度需求和所述权重参数的数值分布情况输入所述阈值预测模型,得到所述阈值预测模型输出的系数阈值预测结果;将所述原始语音模型中小于所述系数阈值预测结果的权重参数确定为所述目标参数。6.根据权利要求3所述的方法,其特征在于,所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数,还包括:在所述第i量化语音模型不满足所述模型精度需求,且所述第i量化语音模型的模型精度与所述模型精度需求的差值小于精度阈值的情况下,将所述原始语音模型中小于所述第i系数阈值,且位于所述原始语音模型中最后N层网络层的权重参数确定为所述目标参数。
7.根据权利要求3所述的方法,其特征在于,所述基于至少一种量化策略确定所述原始语音模型中待量化的目标参数,还包括:在所述第i量化语音模型不满足所述模型精度需求且满足所述压缩率需求,所述第i+1量化语音模型满足所述模型精度需求且不满足所述压缩率需求的情况下,对于所述第i量化语音模型中的神经元,基于所述神经元在不同样本下输出的激活结果,确定补充激活门限;基于所述补充激活门限,从所述原始语音模型的神经元中确定量化补充神经元;将所述原始语音模型中小于所述第i系数阈值的权重参数,以及所述量化补充神经元的权重参数,确定为所述目标参数,其中,基于所述第i系数阈值和所述补充激活门限对所述原始语音模型进行量化后得到的量化语音模型满足所述模型精度需求和所述压缩率需求。8.根据权利要求7所述的方法,其特征在于,所述对于所述第i量化语音模型中的神经元,基于所述神经元在不同样本下输出的激活结果,确定补充激活门限,包括:对于所述第i量化语音模型中的神经元,基于所述神经元在不同样本下输出的激活结果,以及所述第i量化语音模型的模型精度与所述模型精度需求的差值,确定所述补充激活门限,其中,所述补充激活门限正相关于所述差值。9.根据权利要求1所述的方法,其特征在于,所述基于至少一种量...
【专利技术属性】
技术研发人员:周伟,赵楚涵,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。