【技术实现步骤摘要】
神经网络模型的计算方法、装置、电子设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种神经网络模型的计算方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]多组查询注意力
(multi&group query attention)
是指,
Transformer
类大模型中多个注意力头
(head)
的查询
(query)
对应一个键
(key)
和一个值
(value)
,这样可以有效节省键值缓存
(KV Cache)
的存储空间
。
[0003]相关技术中,
multi&group query attention
计算时多个
head
的
query
共用一个
key
和
value。
但是,每个
head
仍然是利用矩阵向量乘法来完成注意力
(attention)
计算,并没有实现计算加速,整体计算效率较低
。
[0004]因此,如何提高神经网络模型的整体计算效率,是目前亟待解决的问题
。
技术实现思路
[0005]本专利技术提供一种神经网络模型的计算方法
、
装置
、
电子设备及存储介质,用以解决现 ...
【技术保护点】
【技术特征摘要】
1.
一种神经网络模型的计算方法,其特征在于,包括:针对神经网络模型中
M
个数据批次,基于每一个数据批次中各注意力头对应的查询,生成至少一个查询矩阵;每一个查询矩阵中的各所述注意力头对应的查询共享同一个键值缓存,所述键值缓存中包括键矩阵及值矩阵;针对所述
M
个数据批次中每一个查询矩阵,基于所述查询矩阵
、
所述键矩阵及所述值矩阵,确定所述神经网络模型的计算结果
。2.
根据权利要求1所述的神经网络模型的计算方法,其特征在于,所述针对所述
M
个数据批次中每一个查询矩阵,基于所述查询矩阵
、
所述键矩阵及所述值矩阵,确定所述神经网络模型的计算结果,包括:针对所述
M
个数据批次中每一个查询矩阵,利用所述神经网络模型中的计算单元对所述查询矩阵
、
所述键矩阵的转置矩阵及所述值矩阵相乘,得到所述计算结果
。3.
根据权利要求2所述的神经网络模型的计算方法,其特征在于,所述利用所述神经网络模型中的计算单元对所述查询矩阵
、
所述键矩阵的转置矩阵及所述值矩阵相乘,得到所述计算结果,包括:基于批次临界值,确定优化策略;所述批次临界值是基于每一个数据批次中所述注意力头的数量
、
共享同一个所述键值缓存的查询对应的注意力头的数量及所述计算单元的数量确定的;基于所述优化策略,利用所述神经网络模型中的计算单元对所述查询矩阵
、
所述键矩阵的转置矩阵及所述值矩阵相乘,得到所述计算结果
。4.
根据权利要求3所述的神经网络模型的计算方法,其特征在于,所述基于批次临界值,确定优化策略,包括:在所述数据批次的数量大于或等于所述批次临界值的情况下,确定所述优化策略为第一优化策略;所述第一优化策略用于表征利用一个所述计算单元处理一个所述查询矩阵
。5.
根据权利要求4所述的神经网络模型的计算方法,其特征在于,基于所述第一优化策略,利用所述神经网络模型中的计算单元对所述查询矩阵
、
所述键矩阵的转置矩阵及所述值矩阵相乘,得到所述计算结果,包括:针对所述神经网络模型中的每一个计算单元,利用所述计算单元对所述查询矩阵
、
所述键矩...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。