【技术实现步骤摘要】
本公开涉及人工智能,尤其涉及一种基于键值矩阵缓存的模型推理方法及装置、介质。
技术介绍
1、随着人工智能技术的不断发展,生成式大语言模型(简称大模型)作为其中的重要分支,已经引起了广泛的关注和应用。生成式大语言模型在对话问答、文本生成、语言翻译等各类语言任务上展现出优越的性能。然而,在生成式大语言模型的推理过程中,显存占用一直是部署的瓶颈之一。
2、生成式大语言模型的推理过程包含两个阶段,分别为预填充(prefill)阶段和解码(decode)阶段。在预填充阶段,输入的文本经过生成式大语言模型处理后,会生成一个令牌token作为解码阶段的输入,并且保存输入的文本的键值(keys,也称为“键”)和价值(values,也称为“值”)在kv缓存(kv cache)中。在之后的解码阶段,也会不断把新生成的token的键值(keys)和价值(values)拼接在已有的kv缓存之后。由此,kv缓存需要一定的存储空间。并且,相关数据表明,对于1个7b的生成式大语言模型而言,在输入文本和生成token数总和为32k时,kv缓存所占据的图形处
...【技术保护点】
1.一种基于键值矩阵缓存的模型推理方法,其特征在于,所述方法利用生成式大语言模型执行语言任务,执行语言任务的步骤包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述键值矩阵、所述编码矩阵、所述第一权重矩阵、所述第二权重矩阵计算得到第二价值矩阵和注意力权重矩阵,并根据所述第二价值矩阵和所述注意力权重矩阵确定出与所述输入文本匹配的输出文本,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述键值矩阵、所述编码矩阵、所述第一权重矩阵、所述第二权重矩阵进行计算,得到所述第二价值矩阵,包括:根据所述键值矩阵、所述编码矩阵的逆矩阵、所述
...【技术特征摘要】
1.一种基于键值矩阵缓存的模型推理方法,其特征在于,所述方法利用生成式大语言模型执行语言任务,执行语言任务的步骤包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述键值矩阵、所述编码矩阵、所述第一权重矩阵、所述第二权重矩阵计算得到第二价值矩阵和注意力权重矩阵,并根据所述第二价值矩阵和所述注意力权重矩阵确定出与所述输入文本匹配的输出文本,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述键值矩阵、所述编码矩阵、所述第一权重矩阵、所述第二权重矩阵进行计算,得到所述第二价值矩阵,包括:根据所述键值矩阵、所述编码矩阵的逆矩阵、所述第一权重矩阵的转置矩阵的逆矩阵、所述第二权重矩阵的转置矩阵进行乘法运算,得到所述第二价值矩阵;以及
4.根据权利要求1所述的方法,其特征在于,所述根据所述键值矩阵、所述编码矩阵、所述第一权重矩阵、所述第二权重矩阵计算得到第二价值矩阵和注意力权重矩阵,并根据所述第二价值矩阵和所述注意力权重矩阵确定出与所述输入文本匹配的输出文本,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述键值矩阵、所述编码矩阵、...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。