模型缓存量化方法及装置制造方法及图纸

技术编号：41100536 阅读：21 留言：0更新日期：2024-04-25 13:57

本发明专利技术提供一种模型缓存量化方法及装置，所述方法包括：对模型的缓存进行切块，得到多个缓存块；采用原始精度在当前缓存块存储对应推理数据，直至当前缓存块的存储空间达到容量上限时，对当前缓存块所存储的推理数据进行量化处理。本发明专利技术提供的模型缓存量化方法及装置，采用原始精度在当前缓存块存储对应推理数据，即当前缓存块中参与推理运算的是原始高精度数据，从而能够保证模型精度。此外，在当前缓存块的存储空间达到容量上限时，对当前缓存块所存储的推理数据进行量化处理，从而能够在保证模型精度的基础上节省内存开销。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及神经网络推理，尤其涉及一种模型缓存量化方法及装置。

技术介绍

1、大语言模型(large language model，llm)在推理过程中，模型缓存(如kv cache)所需的存储空间会随着推理文本长度的增加而逐步增大，kv cache的存储开销甚至接近模型权重的存储开销。在此情况下，为了尽可能支持模型长文本的推理，相关技术通常采用量化技术对kv cache进行压缩，以将高比特数据压缩为低比特数据，从而节省存储开销。

2、目前，相关技术中多对激活值直接进行整体量化处理，但激活值中存在异常元素(如存在极大值或极小值)，则整体量化后存在较大精度损失，进而影响模型推理精度。

技术实现思路

1、本专利技术提供一种模型缓存量化方法及装置，用以解决现有技术中对模型的推理数据矩阵直接进行整体量化存在较大精度损失导致影响模型推理精度的缺陷。

2、本专利技术提供一种模型缓存量化方法，包括：

3、对模型的缓存进行切块，得到多个缓存块；

4、采用原...

【技术保护点】

1.一种模型缓存量化方法，其特征在于，包括：

2.根据权利要求1所述的模型缓存量化方法，其特征在于，所述对模型的缓存进行切块，得到多个缓存块，包括：

3.根据权利要求2所述的模型缓存量化方法，其特征在于，所述在序列维度上对所述缓存进行切块，得到多个缓存块，包括：

4.根据权利要求1至3任一项所述的模型缓存量化方法，其特征在于，所述对所述当前缓存块所存储的推理数据进行量化处理，之后还包括：将量化后的推理数据存储至内存中。

5.根据权利要求1至3任一项所述的模型缓存量化方法，其特征在于，所述当前缓存块为片上缓存。