目标神经网络模型中的操作执行方法及装置、存储介质制造方法及图纸

技术编号:33131629 阅读:17 留言:0更新日期:2022-04-17 00:49
本发明专利技术公开了一种目标神经网络模型中的操作执行方法及装置、存储介质,其中,上述方法包括:在目标神经网络模型中的多头注意力层执行目标运算操作时,获取多头注意力层的输入参数,其中,输入参数包括多个待处理的特征矩阵,目标运算操作用于对输入参数与预先确定取值的一组权重矩阵进行第一函数的运算操作,在第一函数中的一组权重矩阵中存在允许合并的多个权重矩阵;在目标存储空间中读取第二函数中的目标权重矩阵,其中,第二函数是将第一函数中的多个权重矩阵合并之后得到的函数,目标权重矩阵是对多个权重矩阵进行合并操作得到的矩阵;在多头注意力层对多头注意力层的输入参数以及目标权重矩阵执行第二函数的运算操作,得到目标操作结果。得到目标操作结果。得到目标操作结果。

【技术实现步骤摘要】
目标神经网络模型中的操作执行方法及装置、存储介质


[0001]本专利技术涉及通信领域,具体而言,涉及一种目标神经网络模型中的操作执行方法及装置、存储介质。

技术介绍

[0002]Transformer是一个序列到序列的模型,它使用大量的自注意力机制提取序列之间的信息。此架构解决了传统循环神经网络难以并行化的缺点,可以处理长序列数据,避免了梯度消失和梯度爆炸等问题。并且,由于Transformer强大的特征表达能力,Transformer架构从自然语音处理领域迅速辐射到其他人工智能领域(如计算机视觉等),并且逐渐成为一种通用的解决方案。
[0003]但是,在使用了Transformer架构的目标神经网络模型中,具有庞大的矩阵运算量,例如在Transformer架构的多头注意力层中,存在多个权重矩阵需要与输入的特征矩阵进行计算,使得多头注意力层在计算的过程中,矩阵计算的次数非常多,且每次矩阵计算需要访问内存。进而,现有的多头注意力层在进行矩阵计算的过程中,计算效率较低。
[0004]针对相关技术,在目标神经网络模型的多头注意力层进行矩阵计算的过程中,计算效率较低的问题,目前尚未提出有效的解决方案。
[0005]因此,有必要对相关技术予以改良以克服相关技术中的所述缺陷。

技术实现思路

[0006]本专利技术实施例提供了一种目标神经网络模型中的操作执行方法及装置、存储介质,以至少解决在目标神经网络模型的多头注意力层进行矩阵计算的过程中,计算效率较低的问题。
[0007]根据本专利技术实施例的一方面,提供一种目标神经网络模型中的操作执行方法,包括:在目标神经网络模型中的多头注意力层执行目标运算操作时,获取所述多头注意力层的输入参数,其中,所述多头注意力层的输入参数包括多个待处理的特征矩阵,所述目标运算操作用于对所述多头注意力层的输入参数与预先确定取值的一组权重矩阵进行第一函数的运算操作,在所述第一函数中的所述一组权重矩阵中存在允许合并的多个权重矩阵;在目标存储空间中读取第二函数中的目标权重矩阵,其中,所述第二函数是将所述第一函数中的多个权重矩阵合并之后得到的函数,所述目标权重矩阵是对所述多个权重矩阵进行合并操作得到的矩阵;在所述多头注意力层对所述多头注意力层的输入参数以及所述目标权重矩阵执行所述第二函数的运算操作,得到目标操作结果。
[0008]根据本专利技术实施例的另一方面,还提供了一种目标神经网络模型中的操作执行装置,包括:获取模块,用于在目标神经网络模型中的多头注意力层执行目标运算操作时,获取所述多头注意力层的输入参数,其中,所述多头注意力层的输入参数包括多个待处理的特征矩阵,所述目标运算操作用于对所述多头注意力层的输入参数与预先确定取值的一组权重矩阵进行第一函数的运算操作,在所述第一函数中的所述一组权重矩阵中存在允许合
并的多个权重矩阵;读取模块,用于在目标存储空间中读取第二函数中的目标权重矩阵,其中,所述第二函数是将所述第一函数中的多个权重矩阵合并之后得到的函数,所述目标权重矩阵是对所述多个权重矩阵进行合并操作得到的矩阵;运算模块,用于在所述多头注意力层对所述多头注意力层的输入参数以及所述目标权重矩阵执行所述第二函数的运算操作,得到目标操作结果。
[0009]根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述目标神经网络模型中的操作执行方法。
[0010]根据本专利技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述目标神经网络模型中的操作执行方法。
[0011]通过本专利技术,在目标神经网络模型中的多头注意力层执行目标运算操作时,获取所述多头注意力层的输入参数,并在目标存储空间中读取第二函数中的目标权重矩阵,进而在所述多头注意力层对输入参数以及目标权重矩阵执行第二函数的运算操作,得到目标操作结果。由于第二函数是将第一函数中的多个权重矩阵合并之后得到的函数,且所述目标权重矩阵是对第一函数中多个权重矩阵进行合并操作得到的矩阵,进而多头注意力层在获取输入参数以后,使用目标权重矩阵通过第二函数来进行计算比使用多个权重矩阵通过第一函数的计算效率要高。进而采用上述技术方案,解决了在目标神经网络模型的多头注意力层进行矩阵计算的过程中,计算效率较低的问题。
附图说明
[0012]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示例性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0013]图1是本专利技术实施例的目标神经网络模型中的操作执行方法的计算机终端的硬件结构框图;
[0014]图2是根据本专利技术实施例的目标神经网络模型中的操作执行方法的流程图;
[0015]图3是根据本专利技术实施例的多头注意力层的处理示意图(一);
[0016]图4是根据本专利技术实施例的多头注意力层的处理示意图(二);
[0017]图5是根据本专利技术实施例的多头注意力层的处理示意图(三);
[0018]图6是根据本专利技术实施例的目标神经网络模型中的操作执行装置的结构框图(一);
[0019]图7是根据本专利技术实施例的目标神经网络模型中的操作执行装置的结构框图(二)。
具体实施方式
[0020]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范
围。
[0021]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0022]本申请实施例中所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本专利技术实施例的目标神经网络模型中的操作执行方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器(Microprocessor Unit,简称是MPU)或可编程逻辑器件(Programmable logic device,简称是PLD))和用于存储数据的存储器104,在一个示例性实施例中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标神经网络模型中的操作执行方法,其特征在于,包括:在目标神经网络模型中的多头注意力层执行目标运算操作时,获取所述多头注意力层的输入参数,其中,所述多头注意力层的输入参数包括多个待处理的特征矩阵,所述目标运算操作用于对所述多头注意力层的输入参数与预先确定取值的一组权重矩阵进行第一函数的运算操作,在所述第一函数中的所述一组权重矩阵中存在允许合并的多个权重矩阵;在目标存储空间中读取第二函数中的目标权重矩阵,其中,所述第二函数是将所述第一函数中的多个权重矩阵合并之后得到的函数,所述目标权重矩阵是对所述多个权重矩阵进行合并操作得到的矩阵;在所述多头注意力层对所述多头注意力层的输入参数以及所述目标权重矩阵执行所述第二函数的运算操作,得到目标操作结果。2.根据权利要求1所述的方法,其特征在于,在所述获取所述多头注意力层的输入参数之前,所述方法还包括:获取所述预先确定取值的一组权重矩阵;将所述一组权重矩阵中允许合并的所述多个权重矩阵进行合并,得到所述目标权重矩阵;将所述目标权重矩阵存储在所述目标存储空间中。3.根据权利要求2所述的方法,其特征在于,所述将所述一组权重矩阵中允许合并的所述多个权重矩阵进行合并,得到所述目标权重矩阵,包括:通过以下合并操作,得到所述目标权重矩阵:W
re_proj
=W
v
·
W
proj
,其中,所述目标权重矩阵包括W
atten
和W
re_proj
,所述输入参数中的所述多个待处理的特征矩阵包括查询矩阵、键矩阵和值矩阵,所述一组权重矩阵包括与所述查询矩阵对应的第一权重矩阵W
q
、与所述键矩阵对应的第二权重矩阵W
k
、与所述值矩阵对应的第三权重矩阵W
v
、以及第四权重矩阵W
proj
,W
q
和W
k
是允许合并的权重矩阵,W
v
和W
proj
是允许合并的权重矩阵。4.根据权利要求3所述的方法,其特征在于,在执行所述合并操作之前,所述方法还包括:按照如下操作对W
q
和的维度进行调整:将调整为并将调整为其中,d
model
表示模型输入向量进行特征嵌入之后的特征向量维度,d
k
表示键向量进行多头注意力映射之后的特征向量维度,n
heads
表示多头注意力中注意力头的个数;按照如下操作对W
v
、W
proj
和W
re_proj
的维度进行调整:将调整为将调整为并
调整为其中,d
v
表示值向量进行多头注意力映射之后的特征向量维度。5.根据权利要求1所述的方法,其特征在于,所述在所述多头注意力层对所述多头注意力层的输入参数以及所述目标权重矩阵执行所述第二函数的运算操作,得到目标操作结果,包括:通过执行以下所述第二函数的运算操作,得到所述目标操作结果:Y=((Query
·
W
atten
...

【专利技术属性】
技术研发人员:黄萌李合青陈小彪孙璆琛刘峻豪罗正宇
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1