一种应用于BERT模型的蒸馏方法、装置、设备及存储介质制造方法及图纸

技术编号：27507274 阅读：22 留言：0更新日期：2021-03-02 18:35

本申请实施例属于深度学习技术领域，涉及一种应用于BERT模型的蒸馏方法、装置、计算机设备及存储介质。本申请提供的应用于BERT模型的蒸馏方法，由于精简BERT模型保留了与原始BERT模型相同的模型结构，差异是层数的不同，使得代码改动量较小，而且大模型与小模型的预测代码是一致的，可以复用原代码，使得模型在蒸馏的过程中，无需平衡各个loss参数的权重，进而降低深度模型蒸馏方法的困难程度，同时，训练精简BERT模型各个阶段的任务均保持一致性，使得精简BERT模型收敛得更加稳定。使得精简BERT模型收敛得更加稳定。使得精简BERT模型收敛得更加稳定。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于BERT模型的蒸馏方法、装置、设备及存储介质

[0001]本申请涉及深度学习
，尤其涉及一种应用于BERT模型的蒸馏方法、装置、计算机设备及存储介质。

技术介绍

[0002]近年在计算机视觉、语音识别等诸多领域，在利用深度网络解决问题的时候人们常常倾向于设计更为复杂的网络收集更多的数据以期获得更好的结果。但是，随之而来的是模型的复杂度急剧提升，直观的表现是模参数越来越多、规模越来越大，需要的硬件资源(内存、GPU)越来越高。不利于模型的部署和应用向移动端的推广。
[0003]现有一种深度模型蒸馏方法，采用蒸馏模型的优势在进行模型蒸馏时匹配各个中间层之间的数据，已实现压缩模型的目的。
[0004]然而，传统的深度模型蒸馏方法普遍不智能，在蒸馏的过程中匹配中间层输出时，往往需要平衡较多损失(loss)参数，例如：下游任务loss、中间层输出loss、相关矩阵loss、注意力矩阵(Attention)loss、等等，从而导致传统的深度模型蒸馏方法存在平衡loss参数较为困难的问题。

技术实现思路

[0005]本申请实施例的目的在于提出一种应用于BERT模型的蒸馏方法、装置、计算机设备及存储介质，以解决传统的深度模型蒸馏方法存在平衡loss参数较为困难的问题。
[0006]为了解决上述技术问题，本申请实施例提供一种应用于BERT模型的蒸馏方法，采用了如下所述的技术方案：
[0007]接收用户终端发送的模型蒸馏请求，所述模型蒸馏请求至少携带有蒸馏对象标识以及蒸馏系...

【技术保护点】

【技术特征摘要】
1.一种应用于BERT模型的蒸馏方法，其特征在于，包括下述步骤：接收用户终端发送的模型蒸馏请求，所述模型蒸馏请求至少携带有蒸馏对象标识以及蒸馏系数；读取本地数据库，在所述本地数据库中获取与所述蒸馏对象标识相对应的训练好的原始BERT模型，所述原始BERT模型的损失函数为交叉熵；构建与所述训练好的原始BERT模型结构一致的待训练的默认精简模型，所述默认精简模型的损失函数为交叉熵；基于所述蒸馏系数对所述默认精简模型进行蒸馏操作，得到中间精简模型；在所述本地数据库中获取所述中间精简模型的训练数据；基于所述训练数据对所述中间精简模型进行模型训练操作，得到目标精简模型。2.根据权利要求1所述的应用于BERT模型的蒸馏方法，其特征在于，所述基于所述蒸馏系数对所述默认精简模型进行蒸馏操作，得到中间精简模型的步骤，具体包括：基于所述蒸馏系数对所述原始BERT模型的transformer层进行分组操作，得到分组transformer层；基于伯努利分布分别在所述分组transformer层中进行提取操作，得到待替换transformer层；将所述待替换transformer层分别替换至所述默认精简模型，得到所述中间精简模型。3.根据权利要求1所述的应用于BERT模型的蒸馏方法，其特征在于，所述在所述本地数据库中获取所述中间精简模型的训练数据的步骤，具体包括：获取所述原始BERT模型训练后的原始训练数据；调高所述原始BERT模型softmax层的温度参数，得到调高BERT模型；将所述原始训练数据输入至所述调高BERT模型进行预测操作，得到均值结果标签；基于标签信息在所述原始训练数据进行筛选操作，得到带标签的筛选结果标签；基于所述放大训练数据以及所述筛选训练数据选取所述精简模型训练数据。4.根据权利要求1所述的应用于BERT模型的蒸馏方法，其特征在于，在所述基于所述训练数据对所述中间精简模型进行模型训练操作，得到目标精简模型的步骤之后还包括：在所述本地数据库中获取优化训练数据；将所述优化训练数据分别输入至所述训练好的原始BERT模型以及所述目标精简模型中，分别得到原始transformer层输出数据以及目标transformer层输出数据；基于搬土距离计算所述原始transformer层输出数据以及目标transformer层输出数据的蒸馏损失数据；根据所述蒸馏损失数据对所述目标精简模型进行参数优化操作，得到优化精简模型。5.根据权利要求4所述的应用于BERT模型的蒸馏方法，其特征在于，所述基于搬土距离计算所述原始transformer层输出数据以及目标transformer层输出数据的蒸馏损失数据的步骤，具体包括：获取所述原始transformer层输出的原始注意力矩阵以及所述目标transformer层输出的目标注意力矩阵；根据所述原始注意力矩阵以及所述目标注意力矩阵计算注意力EMD距离；获取所述原始transformer层输出的原始FFN隐层矩阵以及所述目标transformer层输
出的目标FFN隐层矩阵；根据所述原始FFN隐层矩阵以及所述目标FFN隐层矩阵计算FFN隐层EMD距...

【专利技术属性】
技术研发人员：朱桂良，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人