【技术实现步骤摘要】
本申请涉及大语言模型,例如涉及一种基于中间层解码的大语言模型加速处理方法、装置。
技术介绍
1、大语言模型在各种自然语言任务中取得了卓越的性能,然而,由于模型的巨大规模,它们的推理速度缓慢且计算成本昂贵。
2、为了解决这个问题,已经有一些方法被提出。例如,现有的文本解码的方法通过搭建文本向量知识库,在自回归解码过程中检索相似文本片段,使用并行解码再验证的策略,加速大语言模型的推理过程,然而,该方法只适用于检索增强的生成场景;另如基于推测解码的方法,通过构建一个高效的推测模型,先使用推测模型自回归解码生成推测tokens,然后输入原模型进行一次并行推理处理,再进行验证,以保证生成结果和原模型的一致性。虽然该方法适用于更多的生成场景,但由于引入了推测模型,会带来额外的内存占用,使得在硬件资源受限场景中部署困难。
3、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、为
...【技术保护点】
1.一种基于中间层解码的大语言模型加速处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在目标中间层中增加一个Loss分支,与最后一层的Loss相加作为整体Loss,包括:
3.根据权利要求1所述的方法,其特征在于,满足预设选取条件的中间层为满足Token生成质量和生成速度的平衡条件,以达到大语言模型推理的整体最优加速比的中间层。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.一种基于中间层解码的大语言模型加速处理装置,其特征在于,所述装置包括:
6.根据权利要
...【技术特征摘要】
1.一种基于中间层解码的大语言模型加速处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在目标中间层中增加一个loss分支,与最后一层的loss相加作为整体loss,包括:
3.根据权利要求1所述的方法,其特征在于,满足预设选取条件的中间层为满足token生成质量和生成速度的平衡条件,以达到大语言模型推理的整体最优加速比的中间层。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.一种基于中间层解码的大语言...
【专利技术属性】
技术研发人员:仝其胜,陈其宾,姜凯,李锐,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。