一种bert模型压缩加速的方法、系统、设备及介质技术方案

技术编号：27977472 阅读：68 留言：0更新日期：2021-04-06 14:12

本发明专利技术公开了一种bert模型压缩加速的方法、系统、设备和存储介质，方法包括：构建第一学生模型，使用通用数据集训练所述第一学生模型，并基于基准bert模型将所述第一学生模型转化为预训练bert模型；构建第二学生模型，使用自然语言任务数据集训练所述第二学生模型，并基于所述预训练bert模型将所述第二学生模型转换为伪量化模型；以及将所述伪量化模型转换成量化模型，并对所述量化模型的算子进行合并以生成推理引擎。本发明专利技术压缩了bert模型的体积，加快了推理速度，提高了bert模型的整体性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种bert模型压缩加速的方法、系统、设备及介质
本专利技术涉及模型推理领域，更具体地，特别是指一种bert模型压缩加速的方法、系统、计算机设备及可读介质。
技术介绍
在NLP(NaturalLanguageProcessing，自然语言处理)领域，BERT模型的强大毫无疑问，但由于模型过于庞大，单个样本计算一次的开销动辄上百毫秒，很难应用到实际生产中。对于bert模型的压缩，现有技术包括Bert模型蒸馏，量化和裁剪。在自然语言理解任务中，如果直接使用int8量化技术来加速模型的推理速度，虽然可以获得2倍的加速效果，但是精度会出现严重下降，而且伪量化模型不能直接进行推理运算。如果仅用知识蒸馏对bert模型进行压缩，对模型推理的加速效果也不太理想。
技术实现思路
有鉴于此，本专利技术实施例的目的在于提出一种bert模型压缩加速的方法、系统、计算机设备及计算机可读存储介质，在训练阶段采用模型蒸馏和量化等手段进行模型压缩，在推理阶段采用模型转换和算子合并等手段完成模型的实际推理应用，大大压缩了bert模型的体积，并且提高了推理速度。基于上述目的，本专利技术实施例的一方面提供了一种bert模型压缩加速的方法，包括如下步骤：构建第一学生模型，使用通用数据集训练所述第一学生模型，并基于基准bert模型将所述第一学生模型转化为预训练bert模型；构建第二学生模型，使用自然语言任务数据集训练所述第二学生模型，并基于所述预训练bert模型将所述第二学生模型转换为伪量化模型；以及将所述伪量化模型转换成量化模型...

【技术保护点】
1.一种bert模型压缩加速的方法，其特征在于，包括以下步骤：/n构建第一学生模型，使用通用数据集训练所述第一学生模型，并基于基准bert模型将所述第一学生模型转化为预训练bert模型；/n构建第二学生模型，使用自然语言任务数据集训练所述第二学生模型，并基于所述预训练bert模型将所述第二学生模型转换为伪量化模型；以及/n将所述伪量化模型转换成量化模型，并对所述量化模型的算子进行合并以生成推理引擎。/n

【技术特征摘要】
1.一种bert模型压缩加速的方法，其特征在于，包括以下步骤：
构建第一学生模型，使用通用数据集训练所述第一学生模型，并基于基准bert模型将所述第一学生模型转化为预训练bert模型；
构建第二学生模型，使用自然语言任务数据集训练所述第二学生模型，并基于所述预训练bert模型将所述第二学生模型转换为伪量化模型；以及
将所述伪量化模型转换成量化模型，并对所述量化模型的算子进行合并以生成推理引擎。

2.根据权利要求1所述的方法，其特征在于，所述基于基准bert模型将所述第一学生模型转化为预训练bert模型包括：
将基准bert模型作为老师模型，构建所述老师模型和所述第一学生模型之间对应层蒸馏的目标代价函数，最小化所述目标代价函数以将所述第一学生模型转化为预训练bert模型。

3.根据权利要求1所述的方法，其特征在于，所述将所述伪量化模型转换成量化模型包括：
对所述伪量化模型进行解析以获得伪量化节点，将所述伪量化节点转换为量化节点和反量化节点。

4.根据权利要求1所述的方法，其特征在于，所述对所述量化模型的算子进行合并以生成推理引擎包括：
对矩阵乘法中的权重进行量化以生成包括比例系数的新权重，提取所述比例系数并与下一个输入量化层的量化系数进行合并。

5.一种bert模型压缩加速的方法，其特征在于，包括：
第一训练模块，配置用于构建第一学生模型，使用通用数据集训练所述第一学生模型，并基于基准bert模型将所述第...

【专利技术属性】
技术研发人员：王曦辉，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人