大语言模型内存调度管理方法、系统和存储介质技术方案

技术编号:42028163 阅读:13 留言:0更新日期:2024-07-16 23:17
本发明专利技术公开了一种大语言模型内存调度管理方法、系统和存储介质。本发明专利技术的大语言模型内存调度管理方法包括:在内存中给权重存储区分配内存;将内存中除去权重存储区部分后的剩余部分内存用作键值缓存和激活值存储区;对键值缓存和激活值存储区实施统一分页调度管理;在键值缓存及激活值存储区共用内存中划分特定数量内存页;在预填充阶段,按照需求来分配内存页用作激活值存储区;在解码阶段,当激活值存储区的内存需求减少时,将原先激活值存储区的部分内存页分配用作键值缓存。本发明专利技术的内存调度管理方法提高了内存的利用率,提升了服务系统所能无阻塞处理的负载上限,在处理大量并发请求时,增强了系统在高负载情况下的处理能力。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种大语言模型内存调度管理方法、系统和存储介质


技术介绍

1、目前,现有的大语言模型(llm)在规模增大到一定程度后的“涌现”现象已经在各种领域展示了惊人的应用潜力,例如文本生成、机器翻译、编程辅助等。

2、现有的大多数大语言模型均基于内存运行,例如,图形处理单元(gpu)内存,以处理其庞大的参数量和复杂的计算任务。然而,大语言模型对内存资源的需求远远高于传统的卷积神经网络(cnns)。常用的cnn参数量一般为million(百万)量级,但常用的大语言模型参数量一般为billion(十亿)量级,例如llama2的多个版本(7billion、13billion、70billion)。甚至gpt4的参数量可能有几百甚至上千billion。超大规模的参数给内存带来了极大的压力。

3、目前的问题在于,现有的内存管理方案局限于针对键值缓存进行设计,忽略了激活值存储区部分。由于大语言模型推理在解码阶段对激活值存储区内存需求远小于预填充阶段,现有方案中用于激活值存储区的这部分内存在解码阶段实际上是被浪费的。此外,本文档来自技高网...

【技术保护点】

1.一种大语言模型内存调度管理方法,所述内存包括权重存储区、键值缓存和激活值存储区;

2.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:所述对键值缓存和激活值存储区实施统一的分页调度管理,其具体包括:

3.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:对于键值缓存及激活值存储区共用内存,按照128个词元为一个内存页单位进行内存页划分。

4.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:在所述对键值缓存和激活值存储区实施统一的分页调度管理过程中,根据词元数量动态分配和调度内存页。

5.一种大语言模型系统,其...

【技术特征摘要】

1.一种大语言模型内存调度管理方法,所述内存包括权重存储区、键值缓存和激活值存储区;

2.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:所述对键值缓存和激活值存储区实施统一的分页调度管理,其具体包括:

3.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:对于键值缓存及激活值存储区共用内存,按照128个词元为一个内存页单位进行内存页划分。

4.根据权利要求1所述大语言模型内存调...

【专利技术属性】
技术研发人员:戴国浩
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1