【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种大模型推理加速方法、装置及电子设备。
技术介绍
1、当前以gpt和llama模型为代表的大规模参数量的预训练语言模型(简称大模型)在文本以及更多领域已经展现出了强大的表现。这证明了更大规模的模型参数能够更好地提高模型的性能。当前主流的大语言模型都是基于transformer decoder-only架构进行自回归推理。显存通过存储已被建模token的key和value状态(key-value状态,简称kv状态),使大模型在推理过程中避免对上下文冗余建模,很大程度上改善了大模型的推理速度。因此,kv状态已经作为一项必要的优化技术被广泛地集成到了大模型的推理过程中。
2、然而,由于模型参数量的指数级增长,模型推理对计算资源的要求越来越高,导致kv状态占据的显存空间也越来越大,这反过来极大地限制了模型推理时的吞吐量
3、针对现有的相关技术中存在的大语言模型的推理速度不佳的问题,目前还没有较好的解决方案。
技术实现思路
1、本专利技术提供一
...【技术保护点】
1.一种大模型推理加速方法,其特征在于,包括:
2.根据权利要求1所述的大模型推理加速方法,其特征在于,通过所述训练集对所述预训练大语言模型进行参数微调,得到稀疏注意力预训练语言模型,包括:
3.根据权利要求2所述的大模型推理加速方法,其特征在于,所述预训练大语言模型包括若干注意力层;所述训练集包括若干文本样本;
4.根据权利要求3所述的大模型推理加速方法,其特征在于,确定所述样本文本单元所对应的索引集合,包括:
5.根据权利要求3所述的大模型推理加速方法,其特征在于,通过所述训练集和所述稀疏注意力掩码对所述预训练大语言
...【技术特征摘要】
1.一种大模型推理加速方法,其特征在于,包括:
2.根据权利要求1所述的大模型推理加速方法,其特征在于,通过所述训练集对所述预训练大语言模型进行参数微调,得到稀疏注意力预训练语言模型,包括:
3.根据权利要求2所述的大模型推理加速方法,其特征在于,所述预训练大语言模型包括若干注意力层;所述训练集包括若干文本样本;
4.根据权利要求3所述的大模型推理加速方法,其特征在于,确定所述样本文本单元所对应的索引集合,包括:
5.根据权利要求3所述的大模型推理加速方法,其特征在于,通过所述训练集和所述稀疏注意力掩码对所述预训练大语言模型进行参数微调,包括:
6.根据权利要求2所述的大模型推理加速方法,其特征在...
【专利技术属性】
技术研发人员:邹立新,李晨亮,
申请(专利权)人:湖北珞珈智言科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。