【技术实现步骤摘要】
本专利技术涉及神经网络推理,尤其涉及一种模型缓存量化方法及装置。
技术介绍
1、大语言模型(large language model,llm)在推理过程中,模型缓存(如kv cache)所需的存储空间会随着推理文本长度的增加而逐步增大,kv cache的存储开销甚至接近模型权重的存储开销。在此情况下,为了尽可能支持模型长文本的推理,相关技术通常采用量化技术对kv cache进行压缩,以将高比特数据压缩为低比特数据,从而节省存储开销。
2、目前,相关技术中多对激活值直接进行整体量化处理,但激活值中存在异常元素(如存在极大值或极小值),则整体量化后存在较大精度损失,进而影响模型推理精度。
技术实现思路
1、本专利技术提供一种模型缓存量化方法及装置,用以解决现有技术中对模型的推理数据矩阵直接进行整体量化存在较大精度损失导致影响模型推理精度的缺陷。
2、本专利技术提供一种模型缓存量化方法,包括:
3、对模型的缓存进行切块,得到多个缓存块;
4、采用原
...【技术保护点】
1.一种模型缓存量化方法,其特征在于,包括:
2.根据权利要求1所述的模型缓存量化方法,其特征在于,所述对模型的缓存进行切块,得到多个缓存块,包括:
3.根据权利要求2所述的模型缓存量化方法,其特征在于,所述在序列维度上对所述缓存进行切块,得到多个缓存块,包括:
4.根据权利要求1至3任一项所述的模型缓存量化方法,其特征在于,所述对所述当前缓存块所存储的推理数据进行量化处理,之后还包括:将量化后的推理数据存储至内存中。
5.根据权利要求1至3任一项所述的模型缓存量化方法,其特征在于,所述当前缓存块为片上缓存。
【技术特征摘要】
1.一种模型缓存量化方法,其特征在于,包括:
2.根据权利要求1所述的模型缓存量化方法,其特征在于,所述对模型的缓存进行切块,得到多个缓存块,包括:
3.根据权利要求2所述的模型缓存量化方法,其特征在于,所述在序列维度上对所述缓存进行切块,得到多个缓存块,包括:
4.根据权利要求1至3任一项所述的模型缓存量化方法,其特征在于,所述对所述当前缓存块所存储的推理数据进行量化处理,之后还包括:将量化后的推理数据存储至内存中。
5.根据权利要求1至3任一项所述的模型缓存量化方法,其特征在于,所述当前缓存块为片上缓存。
6.根据权利要求1至3任一项所述的模型缓存量化方法,其特征在于,所述模型为文本生成模型。
7.根据权利要求1至...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。