基于键值矩阵缓存的模型推理方法及装置、介质制造方法及图纸

技术编号：41364812 阅读：31 留言：0更新日期：2024-05-20 10:13

本公开涉及人工智能技术领域，尤其涉及一种基于键值矩阵缓存的模型推理方法及装置、介质，模型推理方法包括根据输入文本确定出输入特征矩阵，并将根据输入特征矩阵、第一权重矩阵、第二权重矩阵和编码矩阵计算得到的第一价值矩阵、键值矩阵中的键值矩阵缓存；根据键值矩阵、编码矩阵、第一权重矩阵、第二权重矩阵计算得到第二价值矩阵和注意力权重矩阵，并根据第二价值矩阵和注意力权重矩阵确定出与输入文本匹配的输出文本。根据本公开实施例的基于键值矩阵缓存的模型推理方法及装置、介质能够显著降低KV缓存的显存占用，有助于提升生成式大语言模型的计算效率和性能。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及一种基于键值矩阵缓存的模型推理方法及装置、介质。

技术介绍

1、随着人工智能技术的不断发展，生成式大语言模型（简称大模型）作为其中的重要分支，已经引起了广泛的关注和应用。生成式大语言模型在对话问答、文本生成、语言翻译等各类语言任务上展现出优越的性能。然而，在生成式大语言模型的推理过程中，显存占用一直是部署的瓶颈之一。

2、生成式大语言模型的推理过程包含两个阶段，分别为预填充（prefill）阶段和解码（decode）阶段。在预填充阶段，输入的文本经过生成式大语言模型处理后，会生成一个令牌token作为解码阶段的输入，并且保存输入的文本的键值（keys，也称为“键”）和价值（values，也称为“值”）在kv缓存（kv cache）中。在之后的解码阶段，也会不断把新生成的token的键值（keys）和价值（values）拼接在已有的kv缓存之后。由此，kv缓存需要一定的存储空间。并且，相关数据表明，对于1个7b的生成式大语言模型而言，在输入文本和生成token数总和为32k时，kv缓存所占据的图形处...

【技术保护点】

1.一种基于键值矩阵缓存的模型推理方法，其特征在于，所述方法利用生成式大语言模型执行语言任务，执行语言任务的步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述键值矩阵、所述编码矩阵、所述第一权重矩阵、所述第二权重矩阵计算得到第二价值矩阵和注意力权重矩阵，并根据所述第二价值矩阵和所述注意力权重矩阵确定出与所述输入文本匹配的输出文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述键值矩阵、所述编码矩阵、所述第一权重矩阵、所述第二权重矩阵进行计算，得到所述第二价值矩阵，包括：根据所述键值矩阵、所述编码矩阵的逆矩阵、所述第一权重矩阵的转置矩...

【技术特征摘要】

1.一种基于键值矩阵缓存的模型推理方法，其特征在于，所述方法利用生成式大语言模型执行语言任务，执行语言任务的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述键值矩阵、所述编码矩阵、所述第一权重矩阵、所述第二权重矩阵进行计算，得到所述第二价值矩阵，包括：根据所述键值矩阵、所述编码矩阵的逆矩阵、所述第一权重矩阵的转置矩阵的逆矩阵、所述第二权重矩阵的转置矩阵进行乘法运算，得到所述第二价值矩阵；以及

4.根据权利要求1所述的方法，其特征在于，所述根据所述键值矩阵、所述编码矩阵、所述第一权重矩阵、所述第二权重矩阵计算得到第二价值矩阵和注意力权重矩阵，并根据所述第二价值矩阵和所述注意力权重矩阵确定出与所述输入文本匹配的输出文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述键值矩阵、所述编码矩阵、...

【专利技术属性】
技术研发人员：汪玉，洪可，毛秋力，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人