【技术实现步骤摘要】
本申请涉及大语言模型,尤其是涉及一种语言模型的推理优化方法及装置。
技术介绍
1、大型语言模型的基础结构一般都是transformer语言模型的解码器部分,transformer语言模型是自回归的语言模型,在预测过程中会根据上文预测下一个文本令牌(token),并且将新得到的文本令牌(token)作为输入预测下一个文本令牌(token),这样持续迭代直到生成表示结束标识的token终止;在推理上分为两个阶段,第一阶段为针对用户输入的前文提示的全量推理(或称第一次推理、预填充)阶段,第二阶段为针对模型预测结果的增量推理阶段。
2、目前,针对长文请求的超长输入,语言模型在全量推理时可能需要几秒的时间,超长输入无法与短输入同时进行增量推理,使得增量推理的等待时间过长,降低了语言模型在进行计算推理时的效率;此外,在大型模型推理中,存储资源已成为高性能计算的重要竞争因素,在处理超长输入的情况下,显存资源的占用十分紧张,限制语言模型进行长文推理的进程。
技术实现思路
1、有鉴于此,本申请的
...【技术保护点】
1.一种语言模型的推理优化方法,其特征在于,所述推理优化方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述多段请求信息和第二请求信息进行分批合并,利用所述语言模型对所述多段请求信息和所述第二请求信息进行零冗余全量推理和混合推理,得到多个第一推理结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述历史结果信息和所述第一合并信息,利用所述语言模型进行零冗余混合推理,得到多个所述第一推理结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一向量输入信息,利用所述自注意力层进行零冗余全量运算,
...【技术特征摘要】
1.一种语言模型的推理优化方法,其特征在于,所述推理优化方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述多段请求信息和第二请求信息进行分批合并,利用所述语言模型对所述多段请求信息和所述第二请求信息进行零冗余全量推理和混合推理,得到多个第一推理结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述历史结果信息和所述第一合并信息,利用所述语言模型进行零冗余混合推理,得到多个所述第一推理结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一向量输入信息,利用所述自注意力层进行零冗余全量运算,得到第一输出结果,包括:
5.根据权利要求1所述的方法,其特征在于,所述对所述多段请求信息和第二请求信息进行分批合并,利用所述语言模型对所述多段请求信息和所述第二请求信息进行零冗余全量推理和混合推理,得到多个第一推理结果,还包括:
6.根据权利要求1所述的方法,其特征在于,所述对所述多...
【专利技术属性】
技术研发人员:庄嘉琪,诸松权,
申请(专利权)人:上海稀宇科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。