【技术实现步骤摘要】
针对预训练语言模型BERT的知识蒸馏方法、装置及系统
[0001]本专利技术书一个或多个实施例涉及数据处理
,尤其涉及一种针对预训练语言模型BERT的知识蒸馏方法、装置及系统。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
[0003]随着人工智能识别的发展,普遍采用模型进行数据处理、图像识别等,而BERT模型是利用大规模无标注语料训练的预训练语言模型,通过微调处理下游任务,知识蒸馏是一种常用的模型压缩方法,在“教师-学生”框架中,将复杂的教师模型学到的特征作为“知识”传递给简单的学生模型,提高学生模型的性能。
[0004]BERT模型常见的知识蒸馏方法是在特定任务中先微调模型,然后再进行蒸馏操作,将同领域大规模无标签数据,输入微调好的模型进行离线预测 ...
【技术保护点】
【技术特征摘要】
1.针对预训练语言模型BERT的知识蒸馏方法,其特征在于,所述知识蒸馏方法包括蒸馏训练阶段和微调测试阶段;其中,所述蒸馏训练阶段包括:获取无标签文本;利用BERT模型编码,获取所述无标签文本的BERT句向量;利用BiLSTM模型编码,获取所述无标签文本的BiLSTM句向量;基于所述BERT句向量和所述BiLSTM句向量,训练获得最佳BiLSTM模型;所述微调测试阶段包括:将有标签数据集输入最佳BiLSTM模型,进行微调训练;将测试集输入微调后的BiLSTM模型,计算输出结果。2.根据权利要求1所述的知识蒸馏方法,其特征在于,通过反向传播算法更新梯度训练并获得最佳BiLSTM模型。3.根据权利要求1所述的知识蒸馏方法,其特征在于,利用BERT模型编码,获取所述无标签文本的[CLS]字符对应的向量作为BERT句向量。4.根据权利要求1所述的知识蒸馏方法,其特征在于,利用BiLSTM模型编码,获取所述无标签文本的序列最后时刻的隐状态向量作为BiLSTM句向量。5.针对预训练语言模型BERT的知识蒸馏装置,其特征在于,所述装置包括蒸馏训练模块和微调测试模块;其中,所述蒸馏训练模块包括:获取单元,用于获取无标签文本;BERT句向量单元,用于利用BERT模型编码,获取所述无标签文本的BERT句向量;BiLSTM句向量单元,用于利用BiLSTM模型编码,获取所述无标签文本的BiLSTM句向量;训练单元,用于基于...
【专利技术属性】
技术研发人员:姜珊,
申请(专利权)人:厦门云知芯智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。