基于中间层解码的大语言模型加速处理方法、装置制造方法及图纸

技术编号:42186114 阅读:20 留言:0更新日期:2024-07-30 18:38
本申请涉及大语言模型技术领域,公开了一种基于中间层解码的大语言模型加速处理方法、装置,通过选取LLaMA2‑7B模型作为预训练的大语言模型,增加一个与最后一层Loss相加的中间层Loss分支,中间层能够获得接近最后一层的生成能力。在处理过程中,每个Token由中间层生成,并与最后一层的高质量输出Token进行比较验证,确保生成文本的质量。如果中间层生成的Token与最后一层相同,则加入生成文本序列;如果不同,则重新生成Token。该方法能够提前进入解码计算,减少生成延迟,加速处理过程,同时能够避免引入额外的推测模型,降低内存和计算资源占用,适用于硬件资源受限的环境。

【技术实现步骤摘要】

本申请涉及大语言模型,例如涉及一种基于中间层解码的大语言模型加速处理方法、装置


技术介绍

1、大语言模型在各种自然语言任务中取得了卓越的性能,然而,由于模型的巨大规模,它们的推理速度缓慢且计算成本昂贵。

2、为了解决这个问题,已经有一些方法被提出。例如,现有的文本解码的方法通过搭建文本向量知识库,在自回归解码过程中检索相似文本片段,使用并行解码再验证的策略,加速大语言模型的推理过程,然而,该方法只适用于检索增强的生成场景;另如基于推测解码的方法,通过构建一个高效的推测模型,先使用推测模型自回归解码生成推测tokens,然后输入原模型进行一次并行推理处理,再进行验证,以保证生成结果和原模型的一致性。虽然该方法适用于更多的生成场景,但由于引入了推测模型,会带来额外的内存占用,使得在硬件资源受限场景中部署困难。

3、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、为了对披露的实施例的一本文档来自技高网...

【技术保护点】

1.一种基于中间层解码的大语言模型加速处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在目标中间层中增加一个Loss分支,与最后一层的Loss相加作为整体Loss,包括:

3.根据权利要求1所述的方法,其特征在于,满足预设选取条件的中间层为满足Token生成质量和生成速度的平衡条件,以达到大语言模型推理的整体最优加速比的中间层。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.一种基于中间层解码的大语言模型加速处理装置,其特征在于,所述装置包括:

6.根据权利要求5所述的装置,其特...

【技术特征摘要】

1.一种基于中间层解码的大语言模型加速处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在目标中间层中增加一个loss分支,与最后一层的loss相加作为整体loss,包括:

3.根据权利要求1所述的方法,其特征在于,满足预设选取条件的中间层为满足token生成质量和生成速度的平衡条件,以达到大语言模型推理的整体最优加速比的中间层。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.一种基于中间层解码的大语言...

【专利技术属性】
技术研发人员:仝其胜陈其宾姜凯李锐
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1