一种神经网络参数量化方法和装置制造方法及图纸

技术编号：35001521 阅读：20 留言：0更新日期：2022-09-21 14:51

本申请提供人工智能领域中一种神经网络参数量化方法和装置，用于对神经网络进行量化，降低低比特量化时的精度损失，得到输出更准确的轻量化模型。该方法包括：首先，获取待量化模型中各个神经元的参数，得到参数集合；随后对参数集合中的参数进行聚类，得到多种分类数据；对多种分类数据中的每种分类数据进行量化，得到至少一种量化参数，至少一种量化参数用于得到压缩模型，至少一种量化参数的精度低于待量化模型中的参数的精度。于待量化模型中的参数的精度。于待量化模型中的参数的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络参数量化方法和装置

[0001]本申请涉及人工智能领域，尤其涉及一种神经网络参数量化方法和装置。

技术介绍

[0002]模型压缩技术是构筑轻量级神经网络的常用技术手段。神经网络模型中一般使用FP32(32位浮点数据)进行存储。研究发现，神经网络具有较好的鲁棒性，将大型神经网络的参数通过量化、编码等方式减小精度，其依然可以保有相对良好的性能。常用的低精度数据包括FP16(半精度浮点)、INT16(16位的定点整数)、INT8(8位的定点整数)、INT4(4位的定点整数)、1bit等等数值格式。从网络性能和模型压缩程度两方面综合考虑，将权重参数由32bit浮点型(FP32)转化为8bit定点整形(INT8)，是目前最为常用的量化手段。
[0003]然而，在进行量化时，尤其针对假发网络，在低比特量化时精度损失较大，因此，如何降低低比特量化时的精度损失，成为亟待解决的问题。

技术实现思路

[0004]本申请提供一种神经网络参数量化方法和装置，用于对神经网络进行量化，降低低比特量化时的精度损失，得到输出更准确的轻量化模型。
[0005]有鉴于此，第一方面，本申请提供一种神经网络参数量化方法，包括：首先，获取待量化模型中各个神经元的参数，得到参数集合；随后对参数集合中的参数进行聚类，得到多种分类数据；对多种分类数据中的每种分类数据进行量化，得到至少一种量化参数，至少一种量化参数用于得到压缩模型，至少一种量化参数的精度低于待量化模型中的参数的精度。
[0006]因此，本申请实施方...

【技术保护点】

【技术特征摘要】
1.一种神经网络参数量化方法，其特征在于，包括：获取待量化模型中各个神经元的参数，得到参数集合；对所述参数集合进行聚类，得到多种分类数据；对所述多种分类数据中的每种分类数据进行量化，得到至少一种量化参数，所述至少一种量化参数用于得到压缩模型，所述至少一种量化参数的精度低于所述待量化模型中的参数的精度。2.根据权利要求1所述的方法，其特征在于，所述对所述参数集合进行聚类，得到多种分类数据，包括：对所述参数集合进行聚类，得到至少一种聚类数据；从所述至少一种聚类数据中的每种聚类数据中截取预设数量的参数，得到所述多种分类数据。3.根据权利要求1或2所述的方法，其特征在于，所述待量化模型中的参数包括每个神经元的输出的特征中的参数或者每个神经元内的参数值。4.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述待量化模型包括加法神经网络。5.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述压缩模型用于进行图像识别、分类任务或者目标检测中的至少一种。6.一种神经网络参数量化装置，其特征在于，包括：获取模块，用于获取待量化模型中各个神经元的参数，得到参数集合；聚类模块，用于对所述参数集合进行聚类，得到多种分类...

【专利技术属性】
技术研发人员：聂迎，韩凯，刘传建，马俊辉，王云鹤，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人