应用于大语言模型的文本推理加速方法及相关装置制造方法及图纸

技术编号：42212233 阅读：21 留言：0更新日期：2024-07-30 18:54

本公开提供了应用于大语言模型的文本推理加速方法及相关装置，涉及数据处理技术领域，尤其涉及大语言模型、深度学习、长文本推理等技术领域。具体实现方案为：从显存内存储的目标词元集中筛选出需要保留的核心词元集；其中，所述核心词元集中至少包括第一词元子集，所述第一词元子集是基于多个代理词元对所述目标词元集进行全局查询操作所得的注意分数确定的，且各代理词元是从所述目标词元集中筛选的；基于所述核心词元集，对所述显存内的所述目标词元集进行驱逐操作。本公开实施例通过多个代理词元筛选出需要保留的核心词元集，减少不必要的词元的处理压力，从而能够有效的释放显存空间，提高大语言模型的推理速度。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据处理，尤其涉及大语言模型、深度学习、长文本推理、推理加速等。

技术介绍

1、大语言模型的“大”体现在两个方面：模型参数规模大，训练数据规模大。相关技术中，大语言模型多是基于transformer模型构建的。在大语言模型的推理阶段，通常采用kvcache(key value cache，键值缓存)来加速推理过程。

2、然而，随着序列长度的增加，用于存储kv的显存需求会线性增长。这导致在大语言模型推理加速场景中，尤其在长文推理加速场景中，显存占用将会明显的影响推理速度。

技术实现思路

1、本公开提供了一种应用于大语言模型的文本推理加速方法及相关装置。

2、根据本公开的一方面，提供了一种应用于大语言模型的文本推理加速方法，包括：

3、从显存内存储的目标词元集中筛选出需要保留的核心词元集；其中，所述核心词元集中至少包括第一词元子集，所述第一词元子集是基于多个代理词元对所述目标词元集进行全局查询操作所得的注意分数确定的，且各代理词元是从所述目标词元集中筛选的；

<本文档来自技高网...

【技术保护点】

1.一种应用于大语言模型的文本推理加速方法，包括：

2.根据权利要求1所述的方法，其中，确定所述第一词元子集，包括：

3.根据权利要求2所述的方法，其中，所述基于所述各候选词元的注意分数，从所述候选词元集中筛选出需要保留的所述第一词元子集，包括：

4.根据权利要求2所述的方法，其中，所述基于所述各候选词元的注意分数，从所述候选词元集中筛选出需要保留的所述第一词元子集，包括：

5.根据权利要求1-4中任一项所述的方法，其中，所述核心词元集中还包括第二词元子集；所述第二词元子集是对所述目标词元集进行随机筛选操作得到的。>

6.根据权利...

【技术特征摘要】

1.一种应用于大语言模型的文本推理加速方法，包括：

2.根据权利要求1所述的方法，其中，确定所述第一词元子集，包括：

3.根据权利要求2所述的方法，其中，所述基于所述各候选词元的注意分数，从所述候选词元集中筛选出需要保留的所述第一词元子集，包括：

4.根据权利要求2所述的方法，其中，所述基于所述各候选词元的注意分数，从所述候选词元集中筛选出需要保留的所述第一词元子集，包括：

5.根据权利要求1-4中任一项所述的方法，其中，所述核心词元集中还包括第二词元子集；所述第二词元子集是对所述目标词元集进行随机筛选操作得到的。

6.根据权利要求5所述的方法，其中，对所述目标词元集进行随机筛选操作得到所述第二词元子集，包括：

7.根据权利要求2所述的方法，其中，所述从显存内存储的目标词元集中筛选出需要保留的核心词元集，包括：

8.根据权利要求7所述的方法，其中，针对每个注意力头，所述采用所述代理词元集中各代理词元的查询向量，对所述目标词元集进行全局查询，以得到所述目标词元集中的候选词元集内各候选词元的注意分数，包括：

9.根据权利要求8所述的方法，其中，所述在所述查询结果中所述代理词元对应的子矩阵中，对所述候选词元集中同一候选词元的查询值进行汇总，得到所述各候选词元的注意分数，包括：

10.根据权利要求7所述的方法，其中，所述基于所述核心词元集，对所述显存内的所述目标词元集进行驱逐操作，包括：

11.根据权利要求2-4、7-10中任一项所述的方法，其中，所述从所述显存中获取目标数量的词元，得到包含所述多个代理词元的代理词元集，包括：

12.根据权利要求1-12中任一项所述的方法，其中，所述从显存内存储的目标词元集中筛选出需要保...

【专利技术属性】
技术研发人员：王国霞，尚骏远，陈奕龙，曾锦乐，于佃海，王硕寰，孙宇，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人