神经网络模型的压缩方法、设备、存储介质及程序产品技术

技术编号:42460097 阅读:27 留言:0更新日期:2024-08-21 12:48
本说明书一个或多个实施例提供一种神经网络模型的压缩方法、设备、存储介质及程序产品。该方法包括:将第一数据样本输入待压缩的神经网络模型进行推理,以获取在推理过程中由多头注意力结构产生的键值缓存数据集;键值缓存数据集包括与多头注意力结构中的多个注意力头一一对应的多个键值缓存数据;按照至少两个注意力头为一组的方式,对键值缓存数据集中的多个键值缓存数据进行划分,得到与各组对应的键值缓存数据子集;对与各组对应的键值缓存数据子集进行奇异值分解,得到与各组对应的压缩权重;利用与各组对应的压缩权重对各组包括的至少两个注意力头的模型参数进行压缩处理,以将多头注意力结构压缩为分组查询注意力结构。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及深度学习,尤其涉及一种神经网络模型的压缩方法、电子设备、计算机可读存储介质及计算机程序产品。


技术介绍

1、近年来,包含transformer结构的神经网络模型在许多nlp(natural languageprocessing,自然语言处理)任务中都取得了显著的成功,包括机器翻译、文本摘要、问答系统、文本生成等。

2、相关技术中,包含transformer结构的神经网络模型采用自回归解码机制,自回归解码机制支持键值(kv)缓存,即在内存中缓存先前上下文的键(key)和值(value),从而可以在对当前字符进行解码的过程中直接使用内存中缓存先前上下文的键(key)和值(value),避免冗余计算,加快推理过程。然而,在推理期间,transformer结构的解码器中的每个多头注意力结构产生的键和值都需要被缓存,因此键值(kv)缓存的数据量通常非常高,会导致键值(kv)缓存的内存占用线性增加,进一步导致神经网络模型推理过程中的解码过程受到内存限制,显著减慢了模型推理速度,显然,键值(kv)缓存的内存占用线性扩展成为包含tr本文档来自技高网...

【技术保护点】

1.一种神经网络模型的压缩方法,所述神经网络模型包括Transformer结构,所述Transformer结构包括至少一个解码器,所述解码器包括多头注意力结构;所述方法包括:

2.根据权利要求1所述的方法,所述键值缓存数据集包括键缓存数据集和值缓存数据集;

3.根据权利要求2所述的方法,获得所述与各组对应的第一压缩权重,包括:

4.根据权利要求3所述的方法,所述N包括:所述多头注意力结构指示的输入向量的维度除以所述多头注意力结构包括的注意力头的数量所得到的商。

5.根据权利要求2所述的方法,第一模型参数包括所述注意力头中的键矩阵;

<...

【技术特征摘要】

1.一种神经网络模型的压缩方法,所述神经网络模型包括transformer结构,所述transformer结构包括至少一个解码器,所述解码器包括多头注意力结构;所述方法包括:

2.根据权利要求1所述的方法,所述键值缓存数据集包括键缓存数据集和值缓存数据集;

3.根据权利要求2所述的方法,获得所述与各组对应的第一压缩权重,包括:

4.根据权利要求3所述的方法,所述n包括:所述多头注意力结构指示的输入向量的维度除以所述多头注意力结构包括的注意力头的数量所得到的商。

5.根据权利要求2所述的方法,第一模型参数包括所述注意力头中的键矩阵;

6.根据权利要求2或5所述的方法,第一模型参数还包括所述注意力头中的查询矩阵;

7.根据权利要求2所述的方法,所述第二模型参数包括所述注意力头中的值矩阵;...

【专利技术属性】
技术研发人员:余浩杨泽兰李深李永
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1