【技术实现步骤摘要】
本申请涉及自然语言处理领域,特别是涉及一种提高大语言模型吞吐量的方法及装置。
技术介绍
1、吞吐量是系统设计和性能优化的关键指标之一,对于确保生成式大语言模型能够在实际应用中快速且有效地处理大量请求至关重要,吞吐量指的是在一定时间内,模型可以处理的tokens数量,tokens是文本的基本单位,通常对应于词汇中的单词或子词,吞吐量表示模型处理这些tokens的速度,这个指标对于衡量生成式模型的性能和效率非常重要,特别是在处理大规模文本生成任务时,在生成大语言模型的实际应用中,吞吐量的概念非常重要,因为它直接影响到模型在实时或大规模文本生成任务中的性能和可用性,在现有技术中,开发人员为了追求更高的吞吐量,往往会根据具体应用的需求采取相应的硬件、软件和算法优化措施来实现这一目标。
2、提高吞吐量最简单的方法是通过堆硬件的方法,即利用多个处理单元,如gpu、tpu等来同时处理多个请示或多个任务,其通过将请求分配给不同的处理单元并行处理从而显著提高吞吐量,但是gpu、tpu等硬件往往价格昂贵,添加大量的gpu、tpu往往会增加大量成
3本文档来自技高网...
【技术保护点】
1.一种提高大语言模型吞吐量的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“基于块管理模块判断运行队列中的所有输入请求序列在推理时的所需物理块数量”步骤中,在所述块管理模块中定义映射表,所述映射表中存有运行队列中的输入请求序列与所占用物理块之间的映射关系。
3.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“将每一输入请求序列分配到运行队列以及等待队列中”步骤中,为所述运行队列设置请求阈值,若运行队列中的输入请求序列数量小于请求阈值,则将所述输入请求序列分配到运行队
...【技术特征摘要】
1.一种提高大语言模型吞吐量的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“基于块管理模块判断运行队列中的所有输入请求序列在推理时的所需物理块数量”步骤中,在所述块管理模块中定义映射表,所述映射表中存有运行队列中的输入请求序列与所占用物理块之间的映射关系。
3.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“将每一输入请求序列分配到运行队列以及等待队列中”步骤中,为所述运行队列设置请求阈值,若运行队列中的输入请求序列数量小于请求阈值,则将所述输入请求序列分配到运行队列中,若运行队列中的输入请求序列数量大于等于请求阈值,则将所述输入请求序列分配到等待队列中。
4.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“基于块管理模块判断运行队列中的所有输入请求序列在推理时的所需物理块数量”为每一物理块进行编号,在所述块管理模块中定义块管理表,在所述块管理表中记录了每一输入请求序列所占用物理块的编号以及每一物理块的使用量作为输入请求序列与所占用物理块之间的映射。
5.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在本方案中,在“基于块管理模块判断运行队列中的所有输入请求序列在推理时的所需物理块数量”步骤中,所需物理块数量为输入请求序列本身所占用的物理块数量以及在推理过程中需要额外占用的物理块数量之和。
6.根据权利要求1所述的一种提高大语言模型吞吐量的方法,其特征在于,在“则依次将运...
【专利技术属性】
技术研发人员:郁强,叶俊宏,王国梁,王增璞,葛俊,
申请(专利权)人:城云科技中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。