大语言模型推理优化方法技术

技术编号:39740039 阅读:11 留言:0更新日期:2023-12-17 23:41
本申请涉及一种大语言模型推理优化方法

【技术实现步骤摘要】
大语言模型推理优化方法、装置、计算机设备及存储介质


[0001]本申请涉及深度学习
,特别是涉及一种大语言模型推理优化大语言模型推理优化方法

装置

计算机设备及存储介质


技术介绍

[0002]目前在使用
LLM
(大语言模型)做大模型推理时,使用的方案为:(1)将模型参数加载到
GPU
(显卡)显存,通过推理引擎把模型部署成推理服务;(2)部署推理服务时确定一个最大的并发数
S
,以及最长的序列长度
L
,按照这两个参数预先开辟显存空间,给用户的每条请求的每个
token
(基本的单元,用于表示文本或语音中的一个词或短语)来存储
KV
值;(3)用户请求到达时,可以在不超过最大并发数
S
的前提下合并请求,进行并发推理;(4)推理时先对用户的
prompt
(提示词)进行并行预填充,并行预填充要求把所有用户的请求
padding
(填充)到统一长度;(5)预填充结束后将
prompt
中的每个
token

KV
值存储到预先开辟的显存空间;(6)然后逐
token
进行推理的解码过程,每次解码一个
token
时,加载模型和
KVcache
(指在推理过程中把将产生的
KV
矩阵值缓存到计算设备或存储器中)到计算设备的
core
(计算核心),然后对于每个模型参数最多完成
2*S
次浮点运算后,完成当前
token
的解码过程,直至最后序列结束

[0003]现有推理方案会按照并发数以及序列长度
L
预先开辟空间,用来存储
KVcache
,这部分空间是连续空间,一直到当前所有请求的序列完成推理后才会释放,另外并不是每一个用户请求都会产生最长序列长度
L

token
,很多序列预先开辟的
cache
空间都有浪费掉的,用户请求到达时需要
KVcache
和模型参数加载进入计算
core
,解码的计算过程开始,实际上模型加载模型参数的过程只有当前的
token
在做计算,而当
KVcache
很大时,加载
KVcache
也需要较长时间,这两部分时间无法进行重合

[0004]因此,亟需提出一种能够提高设备利用效率

提高推理速度

避免内存超负荷的大语言模型推理优化方法

装置

计算机设备及存储介质


技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够提高设备利用效率

提高推理速度

避免内存超负荷的大语言模型推理优化方法

装置

计算机设备及存储介质

[0006]一方面,提供一种大语言模型推理优化方法,所述方法包括:基于深度学习机制构建大语言模型;响应于检测到用户输入请求,将所述用户输入请求转化为基本信息单元,并输入至所述大语言模型;基于所述大语言模型,对所述基本信息单元进行预填充,得到所述基本信息单元对应的矩阵值;根据动态矩阵值缓存机制,确定所述基本信息单元对应的矩阵值的缓存结果;基于所述缓存结果,对至少一个所述基本信息单元进行推理解码,实现大语言模型的推理优化

[0007]可选的,所述基于深度学习机制构建大语言模型包括:基于自注意力机制,构建初始大语言模型,所述大语言模型包括至少一个自注意力神经网络模块,所述自注意力神经
网络模块至少包括多头注意力模型和前馈神经网络;对所述初始大语言模型进行训练;响应于检测到训练精度达到预设目标时,输出最终的大语言模型

[0008]可选的,所述响应于检测到用户输入请求,将所述用户输入请求转化为基本信息单元,并输入至所述大语言模型包括:获取所述用户输入请求;基于分词器,将所述用户输入请求转化为所述基本信息单元,并确定所述基本信息单元的数量
s
;将所述基本信息单元输入至所述大语言模型

[0009]可选的,所述基于所述大语言模型,对所述基本信息单元进行预填充,得到所述基本信息单元对应的矩阵值包括:基于输入层,将
s
个所述基本信息单元转化为第一嵌入向量,并确定所述第一嵌入向量的第一向量维度为
s*h
,其中,
h
表示单个基本信息单元的向量维度;对每个所述基本信息单元添加位置编码信息,得到第二嵌入向量;将所述第二嵌入向量转化为第一目标向量,所述第一目标向量至少包括第一向量
Q、
第二向量
K
和第三向量
V
;将所述第一目标向量逐个经过目标个数的自注意力神经网络模块,得到所述基本信息单元对应的矩阵值

[0010]可选的,所述将所述第一目标向量逐个经过目标个数的自注意力神经网络模块,得到所述基本信息单元对应的矩阵值包括:基于目标自注意力神经网络模块对所述第一目标向量进行处理包括,基于多头注意力模型,确定所述第一目标向量对应的第二目标向量;拼接多个所述第二目标向量,并将拼接结果进行一次线性映射,得到第一输出结果;基于归一化层和自相加层,确定所述第一输出结果对应的第二输出结果;基于前馈神经网络层,确定所述第二输出结果对应的第三输出结果;将所述第三输出结果逐个经过目标个数的自注意力神经网络模块,得到第四输出结果,即所述基本信息单元对应的矩阵值

[0011]可选的,所述基于多头注意力模型,确定所述第一目标向量对应的第二目标向量包括:基于注意力头的个数
a
,确定每个注意力头所需处理的当前位置以及历史位置对应的第一目标向量的第二向量维度为
h/a
;基于所述第二向量维度,利用第一预设函数对当前位置以及历史位置对应的第一目标向量进行处理,所述第一预设函数包括:,其中,
d
K
表示单个基本信息单元的向量维度,
T
表示矩阵转置,
Attention

Q

K

V
)表示自注意力操作输出值,表示归一化函数,
N
表示当前序列长度;基于所述自注意力操作输出值,确定所述第一目标向量对应的第二目标向量

[0012]可选的,所述拼接多个所述第二目标向量,并将拼接结果进行一次线性映射,得到第一输出结果包括:获取所有注意力头对应的第二目标向量,并进行拼接;利用第二预设函数对拼接结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种大语言模型推理优化方法,其特征在于,所述方法包括:基于深度学习机制构建大语言模型;响应于检测到用户输入请求,将所述用户输入请求转化为基本信息单元,并输入至所述大语言模型;基于所述大语言模型,对所述基本信息单元进行预填充,得到所述基本信息单元对应的矩阵值;根据动态矩阵值缓存机制,确定所述基本信息单元对应的矩阵值的缓存结果;基于所述缓存结果,对至少一个所述基本信息单元进行推理解码,实现大语言模型的推理优化
。2.
根据权利要求1所述的大语言模型推理优化方法,其特征在于,所述基于深度学习机制构建大语言模型包括:基于自注意力机制,构建初始大语言模型,所述大语言模型包括至少一个自注意力神经网络模块,所述自注意力神经网络模块至少包括多头注意力模型和前馈神经网络;对所述初始大语言模型进行训练;响应于检测到训练精度达到预设目标时,输出最终的大语言模型
。3.
根据权利要求1所述的大语言模型推理优化方法,其特征在于,所述响应于检测到用户输入请求,将所述用户输入请求转化为基本信息单元,并输入至所述大语言模型包括:获取所述用户输入请求;基于分词器,将所述用户输入请求转化为所述基本信息单元,并确定所述基本信息单元的数量
s
;将所述基本信息单元输入至所述大语言模型
。4.
根据权利要求1所述的大语言模型推理优化方法,其特征在于,所述基于所述大语言模型,对所述基本信息单元进行预填充,得到所述基本信息单元对应的矩阵值包括:基于输入层,将
s
个所述基本信息单元转化为第一嵌入向量,并确定所述第一嵌入向量的第一向量维度为
s*h
,其中,
h
表示单个基本信息单元的向量维度;对每个所述基本信息单元添加位置编码信息,得到第二嵌入向量;将所述第二嵌入向量转化为第一目标向量,所述第一目标向量至少包括第一向量
Q、
第二向量
K
和第三向量
V
;将所述第一目标向量逐个经过目标个数的自注意力神经网络模块,得到所述基本信息单元对应的矩阵值
。5.
根据权利要求4所述的大语言模型推理优化方法,其特征在于,所述将所述第一目标向量逐个经过目标个数的自注意力神经网络模块,得到所述基本信息单元对应的矩阵值包括:基于目标自注意力神经网络模块对所述第一目标向量进行处理包括:基于多头注意力模型,确定所述第一目标向量对应的第二目标向量;拼接多个所述第二目标向量,并将拼接结果进行一次线性映射,得到第一输出结果;基于归一化层和自相加层,确定所述第一输出结果对应的第二输出结果;基于前馈神经网络层,确定所述第二输出结果对应的第三输出结果;将所述第三输出结果逐个经过目标个数的自注意力神经网络模块,得到第四输出结
果,即所述基本信息单元对应的矩阵值
。6.
根据权利要求5所述的大语言模型推理优化方法,其特征在于,所述基于多头注意力模型,确定所述第一目标向量对应的第二目标向量包括:基于注意力头的个数
a
,确定每个注意力头所需处理的当前位置以及历史位置对应的第一目标向量的第二向量维度为
h/a
;基于所述第二向量维度,利用第一预设函数对当前位置以及历史位置对应的第一目标向量进行处理,所述第一预设函数包括:,其中,表示单个基本信息单元的向量维度,表示矩阵转置,表示自注意力操作输出值,表示归一化函数,表示当前序列长度;基于所述自注意力操作输出值,确定所述第一目标向量对应的第二目标向量
。7.
根据权利要求5所述的大语言模型推理优化方法,其特征在于,所述拼接多个所述第二目标向量,并将拼接结果进行一次线性映射,得到第一输出结果包括:获取所有注意力头对应的第二目标向量,并进行拼接;利用第二预设函数对拼接结果进行一次线性映射,所述第二预设函数包括:,其中,...

【专利技术属性】
技术研发人员:王鹏飞
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1