【技术实现步骤摘要】
本说明书一个或多个实施例涉及深度学习,尤其涉及一种神经网络模型的压缩方法、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
1、近年来,包含transformer结构的神经网络模型在许多nlp(natural languageprocessing,自然语言处理)任务中都取得了显著的成功,包括机器翻译、文本摘要、问答系统、文本生成等。
2、相关技术中,包含transformer结构的神经网络模型采用自回归解码机制,自回归解码机制支持键值(kv)缓存,即在内存中缓存先前上下文的键(key)和值(value),从而可以在对当前字符进行解码的过程中直接使用内存中缓存先前上下文的键(key)和值(value),避免冗余计算,加快推理过程。然而,在推理期间,transformer结构的解码器中的每个多头注意力结构产生的键和值都需要被缓存,因此键值(kv)缓存的数据量通常非常高,会导致键值(kv)缓存的内存占用线性增加,进一步导致神经网络模型推理过程中的解码过程受到内存限制,显著减慢了模型推理速度,显然,键值(kv)缓存的内存占用
...【技术保护点】
1.一种神经网络模型的压缩方法,所述神经网络模型包括Transformer结构,所述Transformer结构包括至少一个解码器,所述解码器包括多头注意力结构;所述方法包括:
2.根据权利要求1所述的方法,所述键值缓存数据集包括键缓存数据集和值缓存数据集;
3.根据权利要求2所述的方法,获得所述与各组对应的第一压缩权重,包括:
4.根据权利要求3所述的方法,所述N包括:所述多头注意力结构指示的输入向量的维度除以所述多头注意力结构包括的注意力头的数量所得到的商。
5.根据权利要求2所述的方法,第一模型参数包括所述注意力头中
<...【技术特征摘要】
1.一种神经网络模型的压缩方法,所述神经网络模型包括transformer结构,所述transformer结构包括至少一个解码器,所述解码器包括多头注意力结构;所述方法包括:
2.根据权利要求1所述的方法,所述键值缓存数据集包括键缓存数据集和值缓存数据集;
3.根据权利要求2所述的方法,获得所述与各组对应的第一压缩权重,包括:
4.根据权利要求3所述的方法,所述n包括:所述多头注意力结构指示的输入向量的维度除以所述多头注意力结构包括的注意力头的数量所得到的商。
5.根据权利要求2所述的方法,第一模型参数包括所述注意力头中的键矩阵;
6.根据权利要求2或5所述的方法,第一模型参数还包括所述注意力头中的查询矩阵;
7.根据权利要求2所述的方法,所述第二模型参数包括所述注意力头中的值矩阵;...
【专利技术属性】
技术研发人员:余浩,杨泽兰,李深,李永,
申请(专利权)人:阿里云计算有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。