预训练语言模型压缩方法和移动端部署方法技术

技术编号:39331246 阅读:29 留言:0更新日期:2023-11-12 16:07
本公开涉及一种预训练语言模型压缩方法和移动端部署方法。所述压缩方法包括:将原始PLM作为超网络,从超网络的目标函数层选择不同宽度的n个块以构造子网络集合;在目标函数层之后设置n个不同宽度可微掩码路径的掩码层;求取目标函数层针对n个不同掩码路径的聚合输出;基于聚合输出,根据预定惩罚函数训练超网络以调整网络参数;对经训练的超网络进行网络架构搜索,以从子网络集合中确定具有优化性能的经压缩的目标网络。本发明专利技术通过将原始PLM作为超网络并使用可微分掩码技术进行训练,避免了模型压缩时的过拟合问题。如上可微分掩码超网训练可以与基于掩码路径的搜索空间剪枝相结合,大幅降低后续进化搜索时的资源需求。需求。需求。

【技术实现步骤摘要】
预训练语言模型压缩方法和移动端部署方法


[0001]本公开涉及深度学习领域,尤其涉及一种预训练语言模型压缩方法和移动端部署方法。

技术介绍

[0002]由于自注意(self

attention)或跨越注意力(cross

attention)机制的功效,Transformer(变压器)以及利用Transformer的BERT模型具有良好的相关性和动态建模能力,被广泛应用于语言、语音甚至视觉模态的信息处理,并且在自然语言处理(NLP)领域性能卓越。BERT模型的自监督预训练和基于下游任务的微调已成为主流应用范式,并使得NLP任务的性能显着提升。然而,基于注意力的模型的大量参数和FLOPS(每秒浮点运算次数)阻碍了在资源受限设备上的部署,使得相关模型的应用领域大为受限。
[0003]为此,需要一种能够在资源首先设备上部署预训练语言模型的方案。

技术实现思路

[0004]本公开要解决的一个技术问题是提供一种预训练语言模型压缩方法和移动端部署方法,通过将原始PLM作为超网络并使用可微分掩码技本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种预训练语言模型压缩方法,包括:将原始预训练语言模型作为目标模型的超网络,从所述超网络的目标函数层选择不同宽度的n个块以构造子网络集合,其中,n是不小于2的整数;在所述超网络的目标函数层之后设置掩码层,其中,所述掩码层包括n个不同宽度的可微掩码路径,用于对所述目标函数层的输出进行不同宽度的掩码,所述掩码的n个不同宽度对应于所述子网络集合中n个不同宽度的块;求取所述目标函数层针对n个不同掩码路径的聚合输出;基于聚合输出,根据预定惩罚函数训练所述超网络以调整所述超网络的参数;对经训练的超网络进行网络架构搜索,以从所述子网络集合中确定具有优化性能的经压缩的目标网络。2.如权利要求1所述的方法,还包括:在所述超网络训练结束后,根据各个块的可微结构参数的分布获取掩码路径的重要性排序,并剪除重要性排序不在前k个的掩码路径,其中,k是小于n的正整数,并且所述网络架构搜索针对经剪枝的超网络进行。3.如权利要求1所述的方法,其中,所述原始BERT由多个相同的单元结构堆叠组成,每个单元结构中包括多头注意力MHA结构和前馈网络FFN结构,并且在所述超网络的目标函数层包括:所述MHA结构的拼接层,并且在所述拼接层之后设置的掩码层用于控制所述MHA结构的头数;和/或所述FFN结构的第一线性层,并且在所述第一线性层之后设置的掩码层用于控制所述FFN结构的中间尺寸。4.如权利要求1所述的方法,其中,对经训练的超网络进行网络架构搜索包括在如下至少一个维度的搜索空间上进行弹性结构搜索:MHA结构的头数;FFN结构的中间尺寸;以及网络深度。5.如权利要求1所述的方法,其中,针对同一个目标函数层,宽度更宽的块涵盖宽度更窄的块包含的所有输出元素。6.如权利要求1所述的方法,其中,在所述超网络的训...

【专利技术属性】
技术研发人员:汪诚愚姚益武黄俊
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1