【技术实现步骤摘要】
目标神经网络模型中的操作执行方法及装置、存储介质
[0001]本专利技术涉及通信领域,具体而言,涉及一种目标神经网络模型中的操作执行方法及装置、存储介质。
技术介绍
[0002]Transformer是一个序列到序列的模型,它使用大量的自注意力机制提取序列之间的信息。此架构解决了传统循环神经网络难以并行化的缺点,可以处理长序列数据,避免了梯度消失和梯度爆炸等问题。并且,由于Transformer强大的特征表达能力,Transformer架构从自然语音处理领域迅速辐射到其他人工智能领域(如计算机视觉等),并且逐渐成为一种通用的解决方案。
[0003]但是,在使用了Transformer架构的目标神经网络模型中,具有庞大的矩阵运算量,例如在Transformer架构的多头注意力层中,存在多个权重矩阵需要与输入的特征矩阵进行计算,使得多头注意力层在计算的过程中,矩阵计算的次数非常多,且每次矩阵计算需要访问内存。进而,现有的多头注意力层在进行矩阵计算的过程中,计算效率较低。
[0004]针对相关技术,在目标神经网络模型的多头注意力层进行矩阵计算的过程中,计算效率较低的问题,目前尚未提出有效的解决方案。
[0005]因此,有必要对相关技术予以改良以克服相关技术中的所述缺陷。
技术实现思路
[0006]本专利技术实施例提供了一种目标神经网络模型中的操作执行方法及装置、存储介质,以至少解决在目标神经网络模型的多头注意力层进行矩阵计算的过程中,计算效率较低的问题。
[0007]根据本专 ...
【技术保护点】
【技术特征摘要】
1.一种目标神经网络模型中的操作执行方法,其特征在于,包括:在目标神经网络模型中的多头注意力层执行目标运算操作时,获取所述多头注意力层的输入参数,其中,所述多头注意力层的输入参数包括多个待处理的特征矩阵,所述目标运算操作用于对所述多头注意力层的输入参数与预先确定取值的一组权重矩阵进行第一函数的运算操作,在所述第一函数中的所述一组权重矩阵中存在允许合并的多个权重矩阵;在目标存储空间中读取第二函数中的目标权重矩阵,其中,所述第二函数是将所述第一函数中的多个权重矩阵合并之后得到的函数,所述目标权重矩阵是对所述多个权重矩阵进行合并操作得到的矩阵;在所述多头注意力层对所述多头注意力层的输入参数以及所述目标权重矩阵执行所述第二函数的运算操作,得到目标操作结果。2.根据权利要求1所述的方法,其特征在于,在所述获取所述多头注意力层的输入参数之前,所述方法还包括:获取所述预先确定取值的一组权重矩阵;将所述一组权重矩阵中允许合并的所述多个权重矩阵进行合并,得到所述目标权重矩阵;将所述目标权重矩阵存储在所述目标存储空间中。3.根据权利要求2所述的方法,其特征在于,所述将所述一组权重矩阵中允许合并的所述多个权重矩阵进行合并,得到所述目标权重矩阵,包括:通过以下合并操作,得到所述目标权重矩阵:W
re_proj
=W
v
·
W
proj
,其中,所述目标权重矩阵包括W
atten
和W
re_proj
,所述输入参数中的所述多个待处理的特征矩阵包括查询矩阵、键矩阵和值矩阵,所述一组权重矩阵包括与所述查询矩阵对应的第一权重矩阵W
q
、与所述键矩阵对应的第二权重矩阵W
k
、与所述值矩阵对应的第三权重矩阵W
v
、以及第四权重矩阵W
proj
,W
q
和W
k
是允许合并的权重矩阵,W
v
和W
proj
是允许合并的权重矩阵。4.根据权利要求3所述的方法,其特征在于,在执行所述合并操作之前,所述方法还包括:按照如下操作对W
q
和的维度进行调整:将调整为并将调整为其中,d
model
表示模型输入向量进行特征嵌入之后的特征向量维度,d
k
表示键向量进行多头注意力映射之后的特征向量维度,n
heads
表示多头注意力中注意力头的个数;按照如下操作对W
v
、W
proj
和W
re_proj
的维度进行调整:将调整为将调整为并
调整为其中,d
v
表示值向量进行多头注意力映射之后的特征向量维度。5.根据权利要求1所述的方法,其特征在于,所述在所述多头注意力层对所述多头注意力层的输入参数以及所述目标权重矩阵执行所述第二函数的运算操作,得到目标操作结果,包括:通过执行以下所述第二函数的运算操作,得到所述目标操作结果:Y=((Query
·
W
atten
...
【专利技术属性】
技术研发人员:黄萌,李合青,陈小彪,孙璆琛,刘峻豪,罗正宇,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。