一种大模型推理加速方法、装置及电子设备制造方法及图纸

技术编号：42686656 阅读：42 留言：0更新日期：2024-09-10 12:34

本发明专利技术提供一种大模型推理加速方法、装置及电子设备，其中，该大模型推理加速方法包括：获取目标领域的自然语言处理任务的推理数据，并将所述推理数据划分为训练集和测试集；获取预训练大语言模型，通过所述训练集对所述预训练大语言模型进行参数微调，收集稀疏注意力掩码和数据集，得到稀疏注意力预训练语言模型；通过所述数据集对预先构建的控制器模块进行训练；将所述测试集中的推理数据的测试文本输入至所述稀疏注意力预训练语言模型进行初步建模处理。本发明专利技术通过动态释放对当前文本单元基本没有任何贡献的文本单元的键值状态，减少显存占用并和注意力的计算开销，解决了现有技术中存在的大语言模型的推理速度不佳的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种大模型推理加速方法、装置及电子设备。

技术介绍

1、当前以gpt和llama模型为代表的大规模参数量的预训练语言模型(简称大模型)在文本以及更多领域已经展现出了强大的表现。这证明了更大规模的模型参数能够更好地提高模型的性能。当前主流的大语言模型都是基于transformer decoder-only架构进行自回归推理。显存通过存储已被建模token的key和value状态(key-value状态，简称kv状态)，使大模型在推理过程中避免对上下文冗余建模，很大程度上改善了大模型的推理速度。因此，kv状态已经作为一项必要的优化技术被广泛地集成到了大模型的推理过程中。

2、然而，由于模型参数量的指数级增长，模型推理对计算资源的要求越来越高，导致kv状态占据的显存空间也越来越大，这反过来极大地限制了模型推理时的吞吐量

3、针对现有的相关技术中存在的大语言模型的推理速度不佳的问题，目前还没有较好的解决方案。

技术实现思路

1、本专利技术提供一...

【技术保护点】

1.一种大模型推理加速方法，其特征在于，包括：

2.根据权利要求1所述的大模型推理加速方法，其特征在于，通过所述训练集对所述预训练大语言模型进行参数微调，得到稀疏注意力预训练语言模型，包括：

3.根据权利要求2所述的大模型推理加速方法，其特征在于，所述预训练大语言模型包括若干注意力层；所述训练集包括若干文本样本；

4.根据权利要求3所述的大模型推理加速方法，其特征在于，确定所述样本文本单元所对应的索引集合，包括：

5.根据权利要求3所述的大模型推理加速方法，其特征在于，通过所述训练集和所述稀疏注意力掩码对所述预训练大语言模型进行参数微调，包...

【技术特征摘要】

1.一种大模型推理加速方法，其特征在于，包括：

3.根据权利要求2所述的大模型推理加速方法，其特征在于，所述预训练大语言模型包括若干注意力层；所述训练集包括若干文本样本；

4.根据权利要求3所述的大模型推理加速方法，其特征在于，确定所述样本文本单元所对应的索引集合，包括：

5.根据权利要求3所述的大模型推理加速方法，其特征在于，通过所述训练集和所述稀疏注意力掩码对所述预训练大语言模型进行参数微调，包括：

6.根据权利要求2所述的大模型推理加速方法，其特征在...

【专利技术属性】
技术研发人员：邹立新，李晨亮，
申请(专利权)人：湖北珞珈智言科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人