当前位置: 首页 > 专利查询>之江实验室专利>正文

基于多层级知识蒸馏预训练语言模型自动压缩方法及平台技术

技术编号:27113842 阅读:21 留言:0更新日期:2021-01-25 19:12
本发明专利技术公开了一种基于多层级知识蒸馏的预训练语言模型自动压缩方法及平台,所述方法包括如下步骤:步骤一、构建多层级知识蒸馏,在自注意力单元、隐藏层状态、嵌入层三个不同层级上蒸馏大模型的知识结构;步骤二、训练元学习的知识蒸馏网络,生成多种预训练语言模型的通用压缩架构;步骤三、基于进化算法搜索最佳压缩结构。首先,研究基于元学习的知识蒸馏生成多种预训练语言模型的通用压缩架构;其次,在已训练好的元学习网络基础上,通过进化算法搜索最佳压缩结构,由此得到与任务无关的预训练语言模型的最优通用压缩架构。练语言模型的最优通用压缩架构。练语言模型的最优通用压缩架构。

【技术实现步骤摘要】
基于多层级知识蒸馏预训练语言模型自动压缩方法及平台


[0001]本专利技术属于语言模型压缩领域,尤其涉及一种基于多层级知识蒸馏的预训练语言模型自动压缩方法及平台。

技术介绍

[0002]大规模预训练语言模型在自然语言理解和生成任务上都取得了优异的性能,然而,将具有海量参数的预训练语言模型部署到内存有限的设备中仍然面临巨大挑战。在模型压缩领域,已有的语言模型压缩方法都是针对特定任务的语言模型压缩。面向下游其它任务时,使用特定任务知识蒸馏生成的预训练模型仍需要重新微调大模型以及生成相关的大模型知识。大模型微调费时费力,计算成本也很高。为了提高压缩模型面向多种下游任务使用过程中的灵活性和有效性,研究与任务无关的预训练语言模型的通用压缩架构。而且,已有的知识蒸馏方法主要是人工设计的知识蒸馏策略。由于受计算资源等限制,人工设计所有可能的蒸馏结构并且寻找最优结构几乎不可能。受神经网络架构搜索的启发,尤其是在少样本的情况下,本专利技术基于多层级知识蒸馏生成面向多任务的预训练语言模型的通用压缩架构。

技术实现思路

[0003]本专利技术的目的在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多层级知识蒸馏的预训练语言模型自动压缩方法,包括如下步骤:步骤一、构建多层级知识蒸馏,在自注意力单元、隐藏层状态、嵌入层三个不同层级上蒸馏大模型的知识结构;步骤二、训练元学习的知识蒸馏网络,生成多种预训练语言模型的通用压缩架构;步骤三、基于进化算法搜索最优压缩结构。2.如权利要求1所述的基于多层级知识蒸馏的预训练语言模型自动压缩方法,其特征在于:步骤二中设计一种结构生成器的元网络,基于步骤一的多层级知识蒸馏构建知识蒸馏编码向量,利用结构生成器生成与当前输入的编码向量对应的蒸馏结构模型;同时,采用伯努利分布采样的方法训练结构生成器,每轮迭代时,利用伯努利分布采样各个编码器迁移的自注意力单元,组成对应的编码向量;通过改变输入结构生成器的编码向量和小批次的训练数据,联合训练结构生成器和对应的蒸馏结构,得到为不同蒸馏结构生成权重的结构生成器。3.如权利要求2所述的基于多层级知识蒸馏的预训练语言模型自动压缩方法,其特征在于:步骤三中在已训练好的元学习网络基础上,通过进化算法搜索最优压缩架构,得到与任务无关的预训练语言模型的最优通用压缩架构。4.如权利要求1所述的基于多层级知识蒸馏的预训练语言模型自动压缩方法,其特征在于:步骤一中将自注意力分布知识、隐藏状态知识和嵌入层知识编码为一个蒸馏网络,采用知识蒸馏实现大模型向小模型的压缩。5.如权利要求4所述的基于多层级知识蒸馏的预训练语言模型自动压缩方法,其特征在于:步骤一中包括自注意力知识蒸馏、隐藏层状态知识蒸馏和嵌入层知识蒸馏。6.如权利要求2所述的基于多层级知识蒸馏的预训练语言模型自动压缩方法,其特征在于:步骤二中所述结构生成器的元网络,由两个全连接层组成,输入一个自注意力知识蒸馏编码向量,输出结构生成器的权重矩阵;结构生成器的训练过程如下:步骤1:构造知识蒸馏编码向量,包括层采样向量、多头剪枝向量、隐藏层降维向量和嵌入层降维向量;步骤2: 基于结构生成器构建蒸馏网络架构,利用该结构生成器构建与当前输入的编码向量对应的蒸馏结构模型,调整结构生成器输出的权重矩阵的形状,与自注意力编码向量对应的蒸馏结构的输入输出的自注意力单元数目一致;步骤3:联合训练结构生成器和蒸馏结构模型:通过伯努利分布采样的方法训练结构生成器,通过改变输入结构生成器的自注意力编码向量和一个小批次的训练数据,联合训练结构生成器和对应的蒸馏结构,学得能够为不同蒸馏结构生成权重的结构生成器。7.如权利要求6所述的基于多层级知识蒸馏的预训练语言模型自动压缩方法,其特征在于:步骤三中,将网络编码向量输入训练好的结构生成器,生成对应蒸馏网络的权重,在验证集上对蒸馏网络进行评估,获得对应蒸馏网络的精度;具体如下:
满足特定约束条件下,首先选取一系列蒸馏网络编码向量作为蒸馏网络的基因,通过在验证集上评估获得对应蒸馏网络的精度;然后,选取精度最高的前k个基因,采用基因重组和变异生成新的基因,通过进一步重复前k个最优基因选择的过程和新基因生成的过程来迭代获得满足约束条件并且精度最高的...

【专利技术属性】
技术研发人员:王宏升王恩平俞再亮
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1