神经网络模型的计算方法技术

技术编号:39848298 阅读:7 留言:0更新日期:2023-12-29 16:46
本发明专利技术提供一种神经网络模型的计算方法

【技术实现步骤摘要】
神经网络模型的计算方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种神经网络模型的计算方法

装置

电子设备及存储介质


技术介绍

[0002]多组查询注意力
(multi&group query attention)
是指,
Transformer
类大模型中多个注意力头
(head)
的查询
(query)
对应一个键
(key)
和一个值
(value)
,这样可以有效节省键值缓存
(KV Cache)
的存储空间

[0003]相关技术中,
multi&group query attention
计算时多个
head

query
共用一个
key

value。
但是,每个
head
仍然是利用矩阵向量乘法来完成注意力
(attention)
计算,并没有实现计算加速,整体计算效率较低

[0004]因此,如何提高神经网络模型的整体计算效率,是目前亟待解决的问题


技术实现思路

[0005]本专利技术提供一种神经网络模型的计算方法

装置

电子设备及存储介质,用以解决现有技术中神经网络模型整体计算效率低的缺陷,提高了神经网络模型的整体计算效率

[0006]本专利技术提供一种神经网络模型的计算方法,包括:
[0007]针对神经网络模型中
M
个数据批次,基于每一个数据批次中各注意力头对应的查询,生成至少一个查询矩阵;每一个查询矩阵中的各注意力头对应的查询共享同一个键值缓存,键值缓存中包括键矩阵及值矩阵;
[0008]针对
M
个数据批次中每一个查询矩阵,基于查询矩阵

键矩阵及值矩阵,确定神经网络模型的计算结果

[0009]可选地,针对
M
个数据批次中每一个查询矩阵,基于查询矩阵

键矩阵及值矩阵,确定神经网络模型的计算结果,包括:
[0010]针对
M
个数据批次中每一个查询矩阵,利用神经网络模型中的计算单元对查询矩阵

键矩阵的转置矩阵及值矩阵相乘,得到计算结果

[0011]可选地,利用神经网络模型中的计算单元对查询矩阵

键矩阵的转置矩阵及值矩阵相乘,得到计算结果,包括:
[0012]基于批次临界值,确定优化策略;批次临界值是基于每一个数据批次中注意力头的数量

共享同一个键值缓存的查询对应的注意力头的数量及计算单元的数量确定的;
[0013]基于优化策略,利用神经网络模型中的计算单元对查询矩阵

键矩阵的转置矩阵及值矩阵相乘,得到计算结果

[0014]可选地,基于批次临界值,确定优化策略,包括:
[0015]在数据批次的数量大于或等于批次临界值的情况下,确定优化策略为第一优化策略;第一优化策略用于表征利用一个计算单元处理一个查询矩阵

[0016]可选地,基于第一优化策略,利用神经网络模型中的计算单元对查询矩阵

键矩阵
的转置矩阵及值矩阵相乘,得到计算结果,包括:
[0017]针对神经网络模型中的每一个计算单元,利用计算单元对查询矩阵

键矩阵的转置矩阵及值矩阵相乘,得到计算结果

[0018]可选地,基于批次临界值,确定优化策略,包括:
[0019]在数据批次的数量小于批次临界值的情况下,确定优化策略为第二优化策略;第二优化策略用于表征利用多个计算单元处理一个查询矩阵

[0020]可选地,基于第二优化策略,利用神经网络模型中的计算单元对查询矩阵

键矩阵的转置矩阵及值矩阵相乘,得到计算结果,包括:
[0021]基于多个计算单元的数量,将键矩阵的转置矩阵按列维度进行切分

将值矩阵按行维度进行切分,得到多个切分后的转置矩阵

多个切分后的值矩阵;每一个切分后的转置矩阵以及切分后的值矩阵对应多个计算单元中的一个计算单元;
[0022]利用多个计算单元中的每一个计算单元,同时对一个查询矩阵

切分后的转置矩阵及切分后的值矩阵相乘,得到计算结果

[0023]本专利技术还提供一种神经网络模型的计算装置,包括:
[0024]生成模块,用于针对神经网络模型中
M
个数据批次,基于每一个数据批次中各注意力头对应的查询,生成至少一个查询矩阵;每一个查询矩阵中的各注意力头对应的查询共享同一个键值缓存,键值缓存中包括键矩阵及值矩阵;
[0025]确定模块,用于针对
M
个数据批次中每一个查询矩阵,基于查询矩阵

键矩阵及值矩阵,确定神经网络模型的计算结果

[0026]本专利技术还提供一种电子设备,包括存储器

处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述神经网络模型的计算方法

[0027]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述神经网络模型的计算方法

[0028]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述神经网络模型的计算方法

[0029]本专利技术提供的神经网络模型的计算方法

装置

电子设备及存储介质,针对神经网络模型中
M
个数据批次,基于每一个数据批次中各注意力头对应的查询,生成至少一个查询矩阵;由于每一个查询矩阵中的各注意力头对应的查询共享同一个键值缓存,键值缓存中包括键矩阵及值矩阵,因此,针对
M
个数据批次中每一个查询矩阵,可以基于查询矩阵

键矩阵及值矩阵完成矩阵矩阵之间的计算,避免使用矩阵向量乘法,从而得到神经网络模型的计算结果,进而提高了神经网络模型的整体计算效率

附图说明
[0030]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种神经网络模型的计算方法,其特征在于,包括:针对神经网络模型中
M
个数据批次,基于每一个数据批次中各注意力头对应的查询,生成至少一个查询矩阵;每一个查询矩阵中的各所述注意力头对应的查询共享同一个键值缓存,所述键值缓存中包括键矩阵及值矩阵;针对所述
M
个数据批次中每一个查询矩阵,基于所述查询矩阵

所述键矩阵及所述值矩阵,确定所述神经网络模型的计算结果
。2.
根据权利要求1所述的神经网络模型的计算方法,其特征在于,所述针对所述
M
个数据批次中每一个查询矩阵,基于所述查询矩阵

所述键矩阵及所述值矩阵,确定所述神经网络模型的计算结果,包括:针对所述
M
个数据批次中每一个查询矩阵,利用所述神经网络模型中的计算单元对所述查询矩阵

所述键矩阵的转置矩阵及所述值矩阵相乘,得到所述计算结果
。3.
根据权利要求2所述的神经网络模型的计算方法,其特征在于,所述利用所述神经网络模型中的计算单元对所述查询矩阵

所述键矩阵的转置矩阵及所述值矩阵相乘,得到所述计算结果,包括:基于批次临界值,确定优化策略;所述批次临界值是基于每一个数据批次中所述注意力头的数量

共享同一个所述键值缓存的查询对应的注意力头的数量及所述计算单元的数量确定的;基于所述优化策略,利用所述神经网络模型中的计算单元对所述查询矩阵

所述键矩阵的转置矩阵及所述值矩阵相乘,得到所述计算结果
。4.
根据权利要求3所述的神经网络模型的计算方法,其特征在于,所述基于批次临界值,确定优化策略,包括:在所述数据批次的数量大于或等于所述批次临界值的情况下,确定所述优化策略为第一优化策略;所述第一优化策略用于表征利用一个所述计算单元处理一个所述查询矩阵
。5.
根据权利要求4所述的神经网络模型的计算方法,其特征在于,基于所述第一优化策略,利用所述神经网络模型中的计算单元对所述查询矩阵

所述键矩阵的转置矩阵及所述值矩阵相乘,得到所述计算结果,包括:针对所述神经网络模型中的每一个计算单元,利用所述计算单元对所述查询矩阵

所述键矩...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:上海壁仞科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1