【技术实现步骤摘要】
本申请涉及数据处理领域,尤其是一种模型优化方法以及相关装置。
技术介绍
1、在现代人工智能领域中,大规模语言模型,如泛光(bloom)大模型,因其出色的生成能力和理解能力而广受瞩目。这类模型通常拥有庞大的参数量,导致模型的存储和推理成本大幅上升。传统的浮点数表示方法(例如fp32)占用了大量的内存和计算资源。为了有效降低这些成本,量化技术被广泛应用于模型压缩和加速领域。
2、相关技术中,非对称(zero-point)量化、绝对值最大(absmax)量化技术因其能在保持较高精度的同时显著降低资源消耗而备受关注。然而,大型语言模型中的激活值分布复杂,存在大量的异常特征值(即离群值),而这些异常特征值在量化过程中会导致量化精度进一步下降。此外,虽然相关技术中通过量化技术能够减少模型的内存占用和计算复杂度,但是,在一些应用场景中,量化过程所产生的额外开销(如量化/反量化操作),也会导致模型推理速度下降,无法达到提升模型性能,提高模型处理效率的目的。
3、因此,亟需设计一种技术方案,用于解决上述至少一个技术问题。
< ...【技术保护点】
1.一种模型优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的模型优化方法,其特征在于,待优化结构至少包括:所述第一模型中的输入矩阵和/或模型权重;
3.根据权利要求2所述的模型优化方法,其特征在于,所述自适应计算所述第一模型中的输入矩阵和/或模型权重各自对应的量化因子,包括:
4.根据权利要求2所述的模型优化方法,其特征在于,所述自适应计算所述第一模型中的输入矩阵和/或模型权重各自对应的量化因子之后,还包括:
5.根据权利要求1所述的模型优化方法,其特征在于,所述对所述第二模型执行混合精度分解,得到包含异常
...【技术特征摘要】
1.一种模型优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的模型优化方法,其特征在于,待优化结构至少包括:所述第一模型中的输入矩阵和/或模型权重;
3.根据权利要求2所述的模型优化方法,其特征在于,所述自适应计算所述第一模型中的输入矩阵和/或模型权重各自对应的量化因子,包括:
4.根据权利要求2所述的模型优化方法,其特征在于,所述自适应计算所述第一模型中的输入矩阵和/或模型权重各自对应的量化因子之后,还包括:
5.根据权利要求1所述的模型优化方法,其特征在于,所述对所述第二模型执行混合精度分解,得到包含异常特征值的第一分解模型、以及包含非异常特征值的第二分解模型,包括:
6.根据权利要求5所述的模型优化方法,其特征在于,所述设定阈值为6。
7.根据权利要求1所述的模型优化方法,其特征在于,所述按照预设策略分别优化所述第一分解模型以及所述第二分解模型,并将优化结果融合为最终输出的第三模型,包括:
8.根据权利要求7所述的模型优化方法,其特征在于,所述对所述第一分解模型采用第一预设精度进行高精...
【专利技术属性】
技术研发人员:杨龚轶凡,朱国梁,胡光耀,赵文宇,孙锦涛,
申请(专利权)人:中昊芯英杭州科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。