当前位置: 首页 > 专利查询>天津大学专利>正文

一种混合张量火车分解模型及其应用制造技术

技术编号:35132427 阅读:20 留言:0更新日期:2022-10-05 10:06
本发明专利技术公开一种混合张量火车分解模型及其应用,所述混合张量火车分解模型是通过张量火车分解对全连接层的表达能力的补偿,所述混合张量火车分解可以缓解张量火车分解;解决张量秩的二次方级别计算复杂度带来的高计算量的技术问题;同时,混合张量火车分解模型在全连接层使用可以解决矩阵分解的低秩瓶颈问题;此外,混合张量火车分解模型在神经网络应用提供运算效率。供运算效率。供运算效率。

【技术实现步骤摘要】
一种混合张量火车分解模型及其应用


[0001]本专利技术涉及神经机器翻译任务,以及Transformer模型压缩和加速
和张量分解技术,尤其涉及一种混合张量火车分解模型及其应用。
技术背景
[0002]Transformer[1]是目前神经机器翻译领域性能先进的模型之一。从最近的研究[2]来看, Transformer通过增加编码层(encoder)和解码层(decoder)的层数或者模型的维度来获得更好的模型效果。但这些做法带来的负面效应是,可能导致更慢的模型推理速度和更大的模型参数。随着人工智能的普及,一个适合不同工业场景需求的研究热点——轻量化人工智能应运而生,如自动驾驶的目标检测和离线场景下的智能翻译笔等工业落地场景,都是轻量化人工智能的实用落地场景。不同于基于云端的推理场景,离线场景下的设备大部分需要边缘计算,然而大模型想要部署到这些边缘设备是不现实的,因为边缘设备如智能手机、树莓派、智能物联网(AIoT)等设备,是一类计算资源和内存资源都受到约束的设备。举个例子,在神经机器翻译WMT'14En

De数据集上,Transformer的base版本有近63兆(M)参数,在边缘设备(树莓派)的推理速度只有1.5个字符每秒,而Transformer的Big版本有将近213 兆参数,在树莓派上的运行是失败的。因此将模型压缩加速后再部署到边缘设备是十分有必要且迫切的。
[0003]寻找一个适合部署到边缘设备且效果和计算资源权衡的模型是一个有具有挑战性的课题。因此一个好的压缩方法尤为重要。好的压缩方法需要考虑三个因素——模型压缩率 (Compression Ratio)、加速比(Speedup)以及模型效果(Performance),并且这三者应该保持一个平衡不能以过多牺牲其中一个指标来提升另一指标。
[0004]低秩近似是一个常见有效的压缩和加速模型的一大类方法,被广泛运用在计算机视觉和自然语言处理领域。但最近的工作在Transformer的神经机器翻译压缩研究存在以下两个问题: (1)现有的方法都是只针对Transformer的某一个组件而不是整体的压缩,如只针对自注意力层[5]、只针对词嵌入层[4]。(2)这些低秩分解的方法没有探究或者没有潜力加速Transformer 模型。总而言之,部署在边缘设备的Transformer需要具备实时反馈(Real

time Feedback)的能力在计算资源和内存资源都受到约束的条件下。我们相信低秩分解有潜力能压缩和加速神经机器翻译的Transformer到资源受限的边缘设备上。
[0005]从低秩近似领域来说,目前低秩近似的一些方法的局限性,特别是有代表性的两种:矩阵分解(MatrixFactorization)和张量火车分解(TensorTrainDecomposition)。前者是相对有速度效率的后者是参数利用更有效率的。然而,它们也存在一些局限性:(1)矩阵分解在高压缩比的低秩瓶颈问题,会有风险导致不小的模型效果的下降[3]。(2)而张量秩的平方级别计算复杂度,高秩张量火车分解会减慢模型推理速度。在Hrinchuk等的研究中[4],张量火车分解是可以达到满秩矩阵的,而矩阵分解的理论最大秩却受限于矩阵分解设定秩的大小。低秩的张量火车分解有潜力是高效计算和高效利用参数的方法。而初步的实验表明, Transformer模型只使用低秩张量火车分解的结果会导致一个显著模型效果下
降。
[0006]综上所述,将神经机器翻译的大模型压缩加速至边缘设备的研究对于实际场景的部署应用有着重要的意义。因此,本专利技术主要想要解决的问题包括以下两个大方向:(1)寻找一个参数、速度和模型效果三方平衡的新的低秩分解方法。(2)将新的分解方法应用在Transformer的所有主要架构上,达到一个模型整体的压缩和加速。沿着这两个目标,针对方向(1),我们提出一种创新的分解方法——混合张量火车分解,是一种可以达到满秩矩阵的情况下比原始矩阵的参数和操作数都要更少的分解方法;针对方向(2),我们应用混合张量火车分解来压缩Transformer在机器翻译的任务上,并应用序列知识蒸馏[10]——该模型称为Hypoformer。模型在三个标准机器翻译数据集上比最近的轻量化Transformer方法[6,7,8,9]参数要更少,速度更快。
[0007][参考文献][0008][1]AshishVaswani,NoamShazeer,NikiParmar,JakobUszkoreit,andLlionJones.Attentionisallyouneed.InAdvancesinNeuralInformationProcessingSystems30:AnnualConferenceonNeuralInformationProcessingSystems2017,December4

9,2017,LongBeach,CA,USA,pages5998

6008,2017.
[0009][2]LiuL,LiuX,GaoJ,etal.UnderstandingtheDifficultyofTrainingTransformers[C].InEMNLP,2020.
[0010][3]ThakkerU,BeuJG,GopeD,etal.Rankandrun

timeawarecompressionofNLPApplications[J].ArXiv,2020,abs/2010.0319
[0011][4]HrinchukO,KhrulkovV,MirvakhabovaL,etal.TensorizedEmbeddingLayers[C/OL]//CohnT,HeY,LiuY.InProceedingsofthe2020ConferenceonEmpiricalMethodsinNaturalLanguageProcessing:Findings,EMNLP2020,OnlineEvent,16

20November2020,2020:4847

4860.
[0012][5]MaX,ZhangP,ZhangS,etal.ATensorizedTransformerforLanguageModeling[C/OL]//WallachHM,LarochelleH,BeygelzimerA,etal.InAdvancesinNeuralInformationProcessingSystems32:AnnualConferenceonNeuralInformationProcessingSystems2019,NeurIPS2019,December8

14,2019,Vancouver,BC,Canada,2019:2229

2239.
[0013][6]WuZ,LiuZ,LinJ,etal.Lit本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混合张量火车分解模型,其特征在于,所述混合张量火车分解模型是通过张量火车分解对全连接层的表达能力的补偿,所述混合张量火车分解模型如下式表示:W=[W
dense
,W
tt
]W
tt
(i1,...,i
n
,j1,...,j2)=T1(1,i1,j1,R1)

T
n
(R
n
‑1,i
n
,j
n
,1)其中:W
dense
∈R
I
×
αJ
,W
tt
=R
I
×
(1

α)J
,α∈[0,1]是一个控制张量火车分解比例的超参数;W
tt
通过重塑获得高阶的张量W
tt
(i1,...,i
n
,j1,...,j
n
);张量核n是一个张量火车分解中的张量核数量。2.一种混合张量火车分解模型在全连接层应用,其特征在于,包括如下步骤:步骤1:数据初始化,将输入向量x∈R
I
通过混合张量分解层获得,第一个是全连接层W
dense
∈R
I
×
αJ
;第二个是张量火车层的核步骤2:计算全连接层部分:输入向量x和全连接层W
dense
进行普通矩阵乘计算,获得维度为αJ的输出向量y
αJ
;步骤3:计算张量火车分解部分:输入向量x先重塑成一个三阶张量再和张量火车层的核进行高阶矩阵乘的计算;其中:3.1输入向量X与张量核T1进行高阶矩阵乘获得一个暂存张量Temp1;3.2暂存张量Temp1张量核T2进行高阶矩阵乘,以此类推,在获得Temp3三阶张量后,再进行重塑成J维的向量为y
(1+α)J
;步骤4:将全连接层的输出向量y
αJ
和张量火车层输出的y
(1+α)J
向量合并输出向量:输出向量y。3.一种混合张量火车分解模型在神经网络应用,其特征在于,包括如下步骤:所述神经网络包括:基于低秩矩阵分解的前馈层、混合张量火车分解词嵌入层模型和混合张量火车分解词自注意力层;所述基于低秩矩阵分解的前馈层如下式表示:FFN(X)=ReLU(XW1+b1)W2+b2其中,矩阵偏置b2∈R
d
;d是模型维度,d
ff
是...

【专利技术属性】
技术研发人员:张鹏李孙竹甘国兵吕秀庆
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1