【技术实现步骤摘要】
本公开涉及人工智能,尤其是一种模型量化方法、装置、电子设备、存储介质和程序产品。
技术介绍
1、随着大语言模型(llm,large language model)规模和复杂度的不断增长,在有限计算资源下实现模型的高效部署成为llm应用的关键问题。量化技术作为一种重要手段,通过将神经网络的权重数据和激活数据从高精度(如32位浮点数)转换为低精度(如8位整数),能够显著减少内存使用、降低计算负担和能耗,从而实现llm在资源受限环境中的有效应用。
2、尽管量化技术已在多种神经网络结构中有所应用,但不同llm模型结构的特性差异使得量化面临诸多挑战。例如:部分模型权重和激活数据存在显著异常值。不同模型的计算操作会影响数据分布,导致量化难度增加。以上特性差异使得量化数据的数值分布不均匀,进而降低模型准确性。
技术实现思路
1、鉴于现有技术的以上问题,本公开实施例提供一种模型量化方法、装置、电子设备、存储介质和程序产品。
2、本公开实施例第一方面提供了一种模型量化方法,包括:
...【技术保护点】
1.一种模型量化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述待量化数据包括所述目标模型中的矩阵乘法模块的权重数据;所述基于所述方差均衡旋转矩阵,对所述待量化数据进行方差均衡变换,包括:
3.根据权利要求1所述的方法,其特征在于,所述待量化数据包括所述目标模型中的块间连接数据,所述块间连接数据包括输出投影数据、门投影数据和状态投影数据中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述待量化数据包括所述目标模型中的低秩自适应模块的权重数据和激活数据中的至少一种。
5.根据权利要求1至4
...【技术特征摘要】
1.一种模型量化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述待量化数据包括所述目标模型中的矩阵乘法模块的权重数据;所述基于所述方差均衡旋转矩阵,对所述待量化数据进行方差均衡变换,包括:
3.根据权利要求1所述的方法,其特征在于,所述待量化数据包括所述目标模型中的块间连接数据,所述块间连接数据包括输出投影数据、门投影数据和状态投影数据中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述待量化数据包括所述目标模型中的低秩自适应模块的权重数据和激活数据中的至少一种。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于所述方差均衡...
【专利技术属性】
技术研发人员:杨大卫,徐祖康,岳宇轩,吴强,
申请(专利权)人:南京后摩电子科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。