语言模型推理优化方法、电子设备、存储介质及程序产品技术

技术编号:42193139 阅读:16 留言:0更新日期:2024-07-30 18:42
本发明专利技术涉及计算机技术领域,具体涉及语言模型推理优化方法、电子设备、存储介质及程序产品。获取待分析内容对应的至少一个待分析信息单元,基于预设语言分析模型,对各待分析信息单元进行预填充,得到各初始查询向量、初始键向量和初始值向量;对各初始查询向量和各初始键向量进行压缩,得到各压缩查询向量和各压缩键向量;从压缩键向量中确定目标压缩键向量;对各目标压缩键向量对应的目标初始键向量、各初始值向量以及各压缩键向量进行存储基于各压缩查询向量、各目标初始键向量和各目标初始值向量输出待分析内容对应的目标分析结果。减少了内存占用率,且减少了计算量,从而提高了对待分析内容进行分析输出目标分析结果的效率。

【技术实现步骤摘要】

本专利技术涉及计算机,具体涉及语言模型推理优化方法、电子设备、存储介质及程序产品


技术介绍

1、大语言模型(llm)是当今人工智能技术的热点。llm是基于海量文本数据训练的深度学习模型。它具备对自然语言进行理解、生成和处理的能力,可以在各类自然语言处理任务中发挥作用,如文本摘要、问答系统、机器翻译等。

2、当前的llm是指参数量超过百亿甚至千亿,以transformer-decoder结构为主的大模型。近期被我们熟悉的gpt4/sora属于llm的范畴。其中,transformer-decoder模型结构是由多个transformer blocks组成,每一个block在对输入的待分析内容进行分析过程中,都会产生查询向量、键向量以及值向量。然后,基于产生的查询向量、键向量以及值向量,进行更加复杂的计算。

3、在基于产生的查询向量、键向量以及值向量,进行复杂计算时,通常需要把每个block产生的键向量以及值向量进行存储,不缓存键向量以及值向量则需要每一次推理时都重新计算一遍。但是,将计算得到的键向量以及值向量存储至存储设备会占用非常本文档来自技高网...

【技术保护点】

1.一种语言模型推理优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对各所述初始查询向量和各所述初始键向量进行压缩,得到各压缩查询向量和各压缩键向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述预设查询向量压缩模型的训练过程包括:

4.根据权利要求3所述的方法,其特征在于,所述初始查询向量压缩网络中包括第一初始编码器和第一初始解码器,所述将各所述训练查询向量输入至初始查询向量压缩网络,对各所述训练查询向量进行编码和解码处理,得到各所述训练查询向量对应的虚拟查询向量,包括:

5.根据权利要求3所述...

【技术特征摘要】

1.一种语言模型推理优化方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对各所述初始查询向量和各所述初始键向量进行压缩,得到各压缩查询向量和各压缩键向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述预设查询向量压缩模型的训练过程包括:

4.根据权利要求3所述的方法,其特征在于,所述初始查询向量压缩网络中包括第一初始编码器和第一初始解码器,所述将各所述训练查询向量输入至初始查询向量压缩网络,对各所述训练查询向量进行编码和解码处理,得到各所述训练查询向量对应的虚拟查询向量,包括:

5.根据权利要求3所述的方法,其特征在于,所述基于所述训练查询向量和所述虚拟查询向量对所述初始查询向量压缩网络进行训练,生成所述预设查询向量压缩模型,包括:

6.根据权利要求4所述的方法,其特征在于,所述预设键向量压缩模型的训练过程包括:

7.根据权利要求6所述的方法,其特征在于,所述初始键向量压缩网络中包括第二初始编码器和第二初始解码器,将各所述训练键向量输入至初始键向量压缩网络,对各所述训练键向量进行编码和解码处理,得到各所述训练键向量对应的虚拟键向量,包括:

8.根据权利要求6所述的方法,其特征在于,所述基于各所述训练键向量和各所述虚拟键向量对所述初始键向量压缩网络进行训练,生成所述预设键向量压缩模型,包括:

9.根据权利要求7所述的方法,其特征在于,所述训练键向量与所训练查询向量相对应;所述方法还包括:

10.根据权利要求1所述的方法,其特征在于,所述根据各所述压缩查询向量和各所述压缩键向量之间的关系,从所述...

【专利技术属性】
技术研发人员:王鹏飞
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1