当前位置: 首页 > 专利查询>清华大学专利>正文

大语言模型的显存管理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41512852 阅读:35 留言:0更新日期:2024-05-30 14:50
本公开涉及机器学习领域,尤其涉及一种大语言模型的显存管理方法、装置、电子设备及存储介质,通过确定当前需要进行大语言模型推理的文本单元数量进一步确定预填充阶段产生的第一激活向量内存,然后根据第一激活向量内存在显存中的KV缓存区域的尾部分割激活向量缓存区域。在进入解码阶段后,从激活向量缓存区域中取出激活向量进行解码,得到增加的KV数据和解码阶段产生的激活向量。再将增加后的KV数据存储至激活向量缓存区域,将解码阶段产生的激活向量存储在KV数据之后。本公开可以通过分割KV缓存区域给激活向量的方式实现KV缓存区域的复用,解决了KV数据不连续的问题,且避免内存资源浪费。

【技术实现步骤摘要】

本公开涉及机器学习领域,尤其涉及一种大语言模型的显存管理方法、装置、电子设备及存储介质


技术介绍

1、大语言模型(large language model,llm)在规模增大到一定程度后的“涌现”现象已经在各种领域展示了惊人的应用潜力,例如文本生成、机器翻译、编程辅助等。然而大模型对内存资源的需求远远高于传统的卷积神经网络(convolutional neural networks,cnns)。常用的cnn参数量一般为百万(million)量级,例如alexnet(60 million)、vgg(138million)。但常用的llm参数量一般为十亿(billion)量级,例如llama2的多个版本(7billion、13 billion、70 billion)。甚至gpt4的参数量可能有几千billion。超大规模的参数给gpu(图形处理单元)的内存带来了极大的压力。相关技术对大语言模型过程中产生的数据进行管理时存在内存浪费以及数据不连续等问题。


技术实现思路

1、有鉴于此,本公开提出了一种大语言模型的显本文档来自技高网...

【技术保护点】

1.一种大语言模型的显存管理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据所述存储位置利用显存中的KV缓存区域的尾部作为激活向量缓存区域,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述激活向量缓存区域的形状为[bs,seqlen, 2×dim+hdim] ,其中,bs为批处理大小,seqlen为文本单元数量,dim为每个文本单元对应的特征维度,hdim为扩展后每个文本单元对应的特征维度。

4.根据权利要求3所述的方法,其特征在于,所述激活向量缓存区域包括第一区域、第二区域和第三区域;p>

5.根据权...

【技术特征摘要】

1.一种大语言模型的显存管理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,根据所述存储位置利用显存中的kv缓存区域的尾部作为激活向量缓存区域,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述激活向量缓存区域的形状为[bs,seqlen, 2×dim+hdim] ,其中,bs为批处理大小,seqlen为文本单元数量,dim为每个文本单元对应的特征维度,hdim为扩展后每个文本单元对应的特征维度。

4.根据权利要求3所述的方法,其特征在于,所述激活向量缓存区域包括第一区域、第二区域和第三区域;

5.根据权利要求4所述的方法,其特征在于,所述第一区域存储的激活向量包括在注意力层处理阶段产生的第一输入参数、第一残差参数和第一输出参数,以及在前馈神经网络处理阶段产生的第二输入参数、...

【专利技术属性】
技术研发人员:汪玉毛秋力洪可
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1