【技术实现步骤摘要】
本专利技术涉及计算机,具体涉及语言模型推理优化方法、电子设备、存储介质及程序产品。
技术介绍
1、大语言模型(llm)是当今人工智能技术的热点。llm是基于海量文本数据训练的深度学习模型。它具备对自然语言进行理解、生成和处理的能力,可以在各类自然语言处理任务中发挥作用,如文本摘要、问答系统、机器翻译等。
2、当前的llm是指参数量超过百亿甚至千亿,以transformer-decoder结构为主的大模型。近期被我们熟悉的gpt4/sora属于llm的范畴。其中,transformer-decoder模型结构是由多个transformer blocks组成,每一个block在对输入的待分析内容进行分析过程中,都会产生查询向量、键向量以及值向量。然后,基于产生的查询向量、键向量以及值向量,进行更加复杂的计算。
3、在基于产生的查询向量、键向量以及值向量,进行复杂计算时,通常需要把每个block产生的键向量以及值向量进行存储,不缓存键向量以及值向量则需要每一次推理时都重新计算一遍。但是,将计算得到的键向量以及值向量存储
...【技术保护点】
1.一种语言模型推理优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对各所述初始查询向量和各所述初始键向量进行压缩,得到各压缩查询向量和各压缩键向量,包括:
3.根据权利要求2所述的方法,其特征在于,所述预设查询向量压缩模型的训练过程包括:
4.根据权利要求3所述的方法,其特征在于,所述初始查询向量压缩网络中包括第一初始编码器和第一初始解码器,所述将各所述训练查询向量输入至初始查询向量压缩网络,对各所述训练查询向量进行编码和解码处理,得到各所述训练查询向量对应的虚拟查询向量,包括:
5
...【技术特征摘要】
1.一种语言模型推理优化方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对各所述初始查询向量和各所述初始键向量进行压缩,得到各压缩查询向量和各压缩键向量,包括:
3.根据权利要求2所述的方法,其特征在于,所述预设查询向量压缩模型的训练过程包括:
4.根据权利要求3所述的方法,其特征在于,所述初始查询向量压缩网络中包括第一初始编码器和第一初始解码器,所述将各所述训练查询向量输入至初始查询向量压缩网络,对各所述训练查询向量进行编码和解码处理,得到各所述训练查询向量对应的虚拟查询向量,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于所述训练查询向量和所述虚拟查询向量对所述初始查询向量压缩网络进行训练,生成所述预设查询向量压缩模型,包括:
6.根据权利要求4所述的方法,其特征在于,所述预设键向量压缩模型的训练过程包括:
7.根据权利要求6所述的方法,其特征在于,所述初始键向量压缩网络中包括第二初始编码器和第二初始解码器,将各所述训练键向量输入至初始键向量压缩网络,对各所述训练键向量进行编码和解码处理,得到各所述训练键向量对应的虚拟键向量,包括:
8.根据权利要求6所述的方法,其特征在于,所述基于各所述训练键向量和各所述虚拟键向量对所述初始键向量压缩网络进行训练,生成所述预设键向量压缩模型,包括:
9.根据权利要求7所述的方法,其特征在于,所述训练键向量与所训练查询向量相对应;所述方法还包括:
10.根据权利要求1所述的方法,其特征在于,所述根据各所述压缩查询向量和各所述压缩键向量之间的关系,从所述...
【专利技术属性】
技术研发人员:王鹏飞,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。