【技术实现步骤摘要】
本公开涉及机器学习领域,尤其涉及一种大语言模型的显存管理方法、装置、电子设备及存储介质。
技术介绍
1、大语言模型(large language model,llm)在规模增大到一定程度后的“涌现”现象已经在各种领域展示了惊人的应用潜力,例如文本生成、机器翻译、编程辅助等。然而大模型对内存资源的需求远远高于传统的卷积神经网络(convolutional neural networks,cnns)。常用的cnn参数量一般为百万(million)量级,例如alexnet(60 million)、vgg(138million)。但常用的llm参数量一般为十亿(billion)量级,例如llama2的多个版本(7billion、13 billion、70 billion)。甚至gpt4的参数量可能有几千billion。超大规模的参数给gpu(图形处理单元)的内存带来了极大的压力。相关技术对大语言模型过程中产生的数据进行管理时存在内存浪费以及数据不连续等问题。
技术实现思路
1、有鉴于此,本公开提出
...【技术保护点】
1.一种大语言模型的显存管理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据所述存储位置利用显存中的KV缓存区域的尾部作为激活向量缓存区域,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述激活向量缓存区域的形状为[bs,seqlen, 2×dim+hdim] ,其中,bs为批处理大小,seqlen为文本单元数量,dim为每个文本单元对应的特征维度,hdim为扩展后每个文本单元对应的特征维度。
4.根据权利要求3所述的方法,其特征在于,所述激活向量缓存区域包括第一区域、第二区域和第三区域;
...【技术特征摘要】
1.一种大语言模型的显存管理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,根据所述存储位置利用显存中的kv缓存区域的尾部作为激活向量缓存区域,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述激活向量缓存区域的形状为[bs,seqlen, 2×dim+hdim] ,其中,bs为批处理大小,seqlen为文本单元数量,dim为每个文本单元对应的特征维度,hdim为扩展后每个文本单元对应的特征维度。
4.根据权利要求3所述的方法,其特征在于,所述激活向量缓存区域包括第一区域、第二区域和第三区域;
5.根据权利要求4所述的方法,其特征在于,所述第一区域存储的激活向量包括在注意力层处理阶段产生的第一输入参数、第一残差参数和第一输出参数,以及在前馈神经网络处理阶段产生的第二输入参数、...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。