一种提高大语言模型吞吐量的方法及装置制造方法及图纸

技术编号:40047368 阅读:25 留言:0更新日期:2024-01-16 20:40
本申请提出了一种提高大语言模型吞吐量的方法及装置,包括以下步骤:构建块管理模块,将GPU显存划分为等额大小的多个物理块;获取大语言模型的至少一输入请求序列,将所述输入请求序列分配至所述需求池内的运行队列以及等待队列中;构建计划表模块,所述计划表模块依据块管理模块中的物理块使用量对运行队列中的输入请求序列进行调整得到最终运行队列;所述大语言模型对最终运行队列中的所有输入请求序列进行推理得到推理结果。本方案通过将GPU显存进行划分并构建交换队列来存储部分的输入请求序列从而充分利用GPU显存以提高模型的吞吐量。

【技术实现步骤摘要】

本申请涉及自然语言处理领域,特别是涉及一种提高大语言模型吞吐量的方法及装置


技术介绍

1、吞吐量是系统设计和性能优化的关键指标之一,对于确保生成式大语言模型能够在实际应用中快速且有效地处理大量请求至关重要,吞吐量指的是在一定时间内,模型可以处理的tokens数量,tokens是文本的基本单位,通常对应于词汇中的单词或子词,吞吐量表示模型处理这些tokens的速度,这个指标对于衡量生成式模型的性能和效率非常重要,特别是在处理大规模文本生成任务时,在生成大语言模型的实际应用中,吞吐量的概念非常重要,因为它直接影响到模型在实时或大规模文本生成任务中的性能和可用性,在现有技术中,开发人员为了追求更高的吞吐量,往往会根据具体应用的需求采取相应的硬件、软件和算法优化措施来实现这一目标。

2、提高吞吐量最简单的方法是通过堆硬件的方法,即利用多个处理单元,如gpu、tpu等来同时处理多个请示或多个任务,其通过将请求分配给不同的处理单元并行处理从而显著提高吞吐量,但是gpu、tpu等硬件往往价格昂贵,添加大量的gpu、tpu往往会增加大量成本。

3本文档来自技高网...

【技术保护点】

1.一种提高大语言模型吞吐量的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“基于块管理模块判断运行队列中的所有输入请求序列在推理时的所需物理块数量”步骤中,在所述块管理模块中定义映射表,所述映射表中存有运行队列中的输入请求序列与所占用物理块之间的映射关系。

3.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“将每一输入请求序列分配到运行队列以及等待队列中”步骤中,为所述运行队列设置请求阈值,若运行队列中的输入请求序列数量小于请求阈值,则将所述输入请求序列分配到运行队列中,若运行队列中的...

【技术特征摘要】

1.一种提高大语言模型吞吐量的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“基于块管理模块判断运行队列中的所有输入请求序列在推理时的所需物理块数量”步骤中,在所述块管理模块中定义映射表,所述映射表中存有运行队列中的输入请求序列与所占用物理块之间的映射关系。

3.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“将每一输入请求序列分配到运行队列以及等待队列中”步骤中,为所述运行队列设置请求阈值,若运行队列中的输入请求序列数量小于请求阈值,则将所述输入请求序列分配到运行队列中,若运行队列中的输入请求序列数量大于等于请求阈值,则将所述输入请求序列分配到等待队列中。

4.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“基于块管理模块判断运行队列中的所有输入请求序列在推理时的所需物理块数量”为每一物理块进行编号,在所述块管理模块中定义块管理表,在所述块管理表中记录了每一输入请求序列所占用物理块的编号以及每一物理块的使用量作为输入请求序列与所占用物理块之间的映射。

5.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在本方案中,在“基于块管理模块判断运行队列中的所有输入请求序列在推理时的所需物理块数量”步骤中,所需物理块数量为输入请求序列本身所占用的物理块数量以及在推理过程中需要额外占用的物理块数量之和。

6.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“则依次将运...

【专利技术属性】
技术研发人员:郁强叶俊宏王国梁王增璞葛俊
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1