一种混合张量火车分解模型及其应用制造技术

技术编号：35132427 阅读：20 留言：0更新日期：2022-10-05 10:06

本发明专利技术公开一种混合张量火车分解模型及其应用，所述混合张量火车分解模型是通过张量火车分解对全连接层的表达能力的补偿，所述混合张量火车分解可以缓解张量火车分解；解决张量秩的二次方级别计算复杂度带来的高计算量的技术问题；同时，混合张量火车分解模型在全连接层使用可以解决矩阵分解的低秩瓶颈问题；此外，混合张量火车分解模型在神经网络应用提供运算效率。供运算效率。供运算效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种混合张量火车分解模型及其应用

[0001]本专利技术涉及神经机器翻译任务，以及Transformer模型压缩和加速
和张量分解技术，尤其涉及一种混合张量火车分解模型及其应用。
技术背景
[0002]Transformer[1]是目前神经机器翻译领域性能先进的模型之一。从最近的研究[2]来看， Transformer通过增加编码层(encoder)和解码层(decoder)的层数或者模型的维度来获得更好的模型效果。但这些做法带来的负面效应是，可能导致更慢的模型推理速度和更大的模型参数。随着人工智能的普及，一个适合不同工业场景需求的研究热点——轻量化人工智能应运而生，如自动驾驶的目标检测和离线场景下的智能翻译笔等工业落地场景，都是轻量化人工智能的实用落地场景。不同于基于云端的推理场景，离线场景下的设备大部分需要边缘计算，然而大模型想要部署到这些边缘设备是不现实的，因为边缘设备如智能手机、树莓派、智能物联网(AIoT)等设备，是一类计算资源和内存资源都受到约束的设备。举个例子，在神经机器翻译WMT'14En
‑
De数据集上，Transformer的base版本有近63兆(M)参数，在边缘设备(树莓派)的推理速度只有1.5个字符每秒，而Transformer的Big版本有将近213 兆参数，在树莓派上的运行是失败的。因此将模型压缩加速后再部署到边缘设备是十分有必要且迫切的。
[0003]寻找一个适合部署到边缘设备且效果和计算资源权衡的模型是一个有具有挑战性的课题。因此一个好的压缩方法尤为重...

【技术保护点】

【技术特征摘要】
1.一种混合张量火车分解模型，其特征在于，所述混合张量火车分解模型是通过张量火车分解对全连接层的表达能力的补偿，所述混合张量火车分解模型如下式表示:W＝[W
dense
,W
tt
]W
tt
(i1,...,i
n
,j1,...,j2)＝T1(1,i1,j1,R1)
…
T
n
(R
n
‑1,i
n
,j
n
,1)其中：W
dense
∈R
I
×
αJ
，W
tt
＝R
I
×
(1
‑
α)J
，α∈[0,1]是一个控制张量火车分解比例的超参数；W
tt
通过重塑获得高阶的张量W
tt
(i1,...,i
n
,j1,...,j
n
)；张量核n是一个张量火车分解中的张量核数量。2.一种混合张量火车分解模型在全连接层应用，其特征在于，包括如下步骤：步骤1：数据初始化，将输入向量x∈R
I
通过混合张量分解层获得，第一个是全连接层W
dense
∈R
I
×
αJ
；第二个是张量火车层的核步骤2：计算全连接层部分：输入向量x和全连接层W
dense
进行普通矩阵乘计算，获得维度为αJ的输出向量y
αJ
；步骤3：计算张量火车分解部分：输入向量x先重塑成一个三阶张量再和张量火车层的核进行高阶矩阵乘的计算；其中：3.1输入向量X与张量核T1进行高阶矩阵乘获得一个暂存张量Temp1；3.2暂存张量Temp1张量核T2进行高阶矩阵乘，以此类推，在获得Temp3三阶张量后，再进行重塑成J维的向量为y
(1+α)J
；步骤4：将全连接层的输出向量y
αJ
和张量火车层输出的y
(1+α)J
向量合并输出向量：输出向量y。3.一种混合张量火车分解模型在神经网络应用，其特征在于，包括如下步骤：所述神经网络包括：基于低秩矩阵分解的前馈层、混合张量火车分解词嵌入层模型和混合张量火车分解词自注意力层；所述基于低秩矩阵分解的前馈层如下式表示：FFN(X)＝ReLU(XW1+b1)W2+b2其中，矩阵偏置b2∈R
d
；d是模型维度,d
ff
是...

【专利技术属性】
技术研发人员：张鹏，李孙竹，甘国兵，吕秀庆，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人