【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种大语言模型内存调度管理方法、系统和存储介质。
技术介绍
1、目前,现有的大语言模型(llm)在规模增大到一定程度后的“涌现”现象已经在各种领域展示了惊人的应用潜力,例如文本生成、机器翻译、编程辅助等。
2、现有的大多数大语言模型均基于内存运行,例如,图形处理单元(gpu)内存,以处理其庞大的参数量和复杂的计算任务。然而,大语言模型对内存资源的需求远远高于传统的卷积神经网络(cnns)。常用的cnn参数量一般为million(百万)量级,但常用的大语言模型参数量一般为billion(十亿)量级,例如llama2的多个版本(7billion、13billion、70billion)。甚至gpt4的参数量可能有几百甚至上千billion。超大规模的参数给内存带来了极大的压力。
3、目前的问题在于,现有的内存管理方案局限于针对键值缓存进行设计,忽略了激活值存储区部分。由于大语言模型推理在解码阶段对激活值存储区内存需求远小于预填充阶段,现有方案中用于激活值存储区的这部分内存在解码阶段实际
...【技术保护点】
1.一种大语言模型内存调度管理方法,所述内存包括权重存储区、键值缓存和激活值存储区;
2.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:所述对键值缓存和激活值存储区实施统一的分页调度管理,其具体包括:
3.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:对于键值缓存及激活值存储区共用内存,按照128个词元为一个内存页单位进行内存页划分。
4.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:在所述对键值缓存和激活值存储区实施统一的分页调度管理过程中,根据词元数量动态分配和调度内存页。
5.一
...【技术特征摘要】
1.一种大语言模型内存调度管理方法,所述内存包括权重存储区、键值缓存和激活值存储区;
2.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:所述对键值缓存和激活值存储区实施统一的分页调度管理,其具体包括:
3.根据权利要求1所述大语言模型内存调度管理方法,其特征在于:对于键值缓存及激活值存储区共用内存,按照128个词元为一个内存页单位进行内存页划分。
4.根据权利要求1所述大语言模型内存调...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。