基于知识蒸馏的问答模型压缩方法、装置及相关设备制造方法及图纸

技术编号：35271239 阅读：24 留言：0更新日期：2022-10-19 10:43

本发明专利技术公开了基于知识蒸馏的问答模型压缩方法、装置及相关设备。该方法包括获取预训练好的语言模型作为教师模型；将样本数据输入教师模型进行答案在文本起止位置的预测，得到预测向量；根据微调方法对预测向量中每一答案在文本起止位置的预测值进行微调，得到调整向量；基于预置损失函数计算调整向量和预测向量的特征损失，并根据特征损失优化教师模型的模型参数，得到目标教师模型；根据目标教师模型的模型参数和每一transformer层进行模型自蒸馏，构建得到对应的学生模型，并基于目标教师模型的输出结果对所有学生模型进行压缩训练，得到目标问答模型。该方法减少学生模型复杂度，节省计算开销。节省计算开销。节省计算开销。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识蒸馏的问答模型压缩方法、装置及相关设备

[0001]本专利技术涉及智能问答
，尤其涉及一种基于知识蒸馏的问答模型压缩方法、装置及相关设备。

技术介绍

[0002]近年来，基于深度神经网络的预训练语言模型在自然语言处理领域中的许多细分任务上(例如文本分类、机器阅读、机器翻译等)都取得了重大突破，但随之而来的是模型容量越来越大(以自然语言处理领域为例，参数超过千亿的模型已层出不穷，且都基于transformer模型的网络结构，拥有多个transformer 层)，从而带来了训练和部署模型的巨大挑战。尤其是在部署方面，巨大的单个模型难以在显存容量较小的边缘端、移动端设备上部署，从而限制了模型的实际使用价值。为了解决以上难题，知识蒸馏技术应运而生，其利用拥有更多参数的(教师)模型来指导训练较少参数的(学生)模型，让学生模型学到教师模型的知识；通俗说，就是让学生模型的输出接近教师模型的输出。但传统模型蒸馏技术需要单独设置教师模型和学生模型，增加了模型的复杂度和计算开销。

技术实现思路

[0003]本专利技术实施例提供了一种基于知识蒸馏的问答模型压缩方法、装置及相关设备，旨在解决现有技术中基于知识蒸馏的问答模型复杂度较高的问题。
[0004]第一方面，本专利技术实施例提供了一种基于知识蒸馏的问答模型压缩方法，其包括：
[0005]获取预训练好的语言模型作为教师模型，所述教师模型为基于多个 transformer层的模型；
[0006]将样本数据输入所述教师模型进行答案在文本起...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的问答模型压缩方法，其特征在于，包括：获取预训练好的语言模型作为教师模型，所述教师模型为基于多个transformer层的模型；将样本数据输入所述教师模型进行答案在文本起止位置的预测，得到预测向量，所述样本数据包括问题和问题对应答案所在的文本起止位置；根据微调方法对所述预测向量中每一答案在文本起止位置的预测值进行微调，得到调整向量；基于预置损失函数计算所述调整向量和预测向量的特征损失，并根据所述特征损失优化所述教师模型的模型参数，得到目标教师模型；根据所述目标教师模型的模型参数和每一transformer层进行模型自蒸馏，构建得到对应的学生模型，并基于所述目标教师模型的输出结果对所有学生模型进行压缩训练，得到目标问答模型。2.根据权利要求1所述的基于知识蒸馏的问答模型压缩方法，其特征在于，所述基于所述目标教师模型的输出结果对所有学生模型进行压缩训练，得到目标问答模型，包括：将第k
‑
1个学生模型的输出作为第k个学生模型的输入对第k个学生模型进行训练；根据KL散度分别计算每一学生模型与所述目标教师模型的预测损失，并基于所有学生模型与所述目标教师模型的预测损失的和优化所有学生模型的模型参数，得到所述目标问答模型。3.根据权利要求2所述的基于知识蒸馏的问答模型压缩方法，其特征在于，所述根据KL散度分别计算每一学生模型与所述目标教师模型的预测损失，并基于所有学生模型与所述目标教师模型的预测损失的和优化所有学生模型的模型参数，得到所述目标问答模型，包括：按如下公式计算每一学生模型与所述教师模型的预测损失：其中，D
KL
表示KL散度，表示第k个学生模型的预测值，p
tea
表示目标教师模型的预测值，表示第k个学生模型预测的答案所在段落中第i个词成为起始位置的概率值，第k个学生模型预测的答案所在段落中第i个词成为终止位置的概率值；按如下公式计算所有学生模型与所述目标教师模型的预测损失的和：其中，表示第1、2、...、L
‑
1个学生模型的预测值，L表示学生模型的数量。4.根据权利要求3所述的基于知识蒸馏的问答模型压缩方法，其特征在于，所述根据所述目标教师模型的模型参数和transformer层构建学生模型，并基于所述目标教师模型的输出结果对所有学生模型进行压缩训练，得到目标问答模型之后，包括：
在推理阶段，计算当前学生模型对应输出结果的不确定系数，并判断不确定系数是否小于预置系数阈值；若是，则以不确定系数对应的输出结果为最终预测结果；若否，则继续将当前学生模型的输出结果输入至下一个学生模型进行预测，并返回继续判断下...

【专利技术属性】
技术研发人员：王伟，张黔，陈焕坤，钟焰涛，
申请(专利权)人：润联软件系统深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人