一种应用于知识蒸馏的知识选择方法技术

技术编号：38141499 阅读：11 留言：0更新日期：2023-07-08 09:56

本发明专利技术公开一种应用于知识蒸馏的知识选择方法，包括以下步骤：1)使用文本分类任务的数据训练教师模型；2)使用训练后的教师模型来抽取不同类型的知识，并把这些知识进行分类；3)基于训练后的教师模型来初始化学生模型；4)使用REINFORCE算法训练知识选择模块；5)使用被训练过后的知识选择模块来训练最终的学生模型，训练时知识选择模块根据对应教师模型和学生模型的特征来选择学生模型应该学习的类型的知识。本发明专利技术方法可学习知识蒸馏过程中适合学生模型学习的知识类型，这使得在知识蒸馏过程中可以在每一个训练步中根据教师模型和学生模型的状态来选择适合学生模型所学习的知识类型。知识类型。知识类型。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于知识蒸馏的知识选择方法

[0001]本专利技术涉及一种知识蒸馏技术，具体为一种应用于知识蒸馏的知识选择方法。

技术介绍

[0002]预训练语言模型(PLM,Pre
‑
trained Language Model)通常采用双向的Transformer来堆叠而成，通过在大规模单语语料进行训练，然后在特定任务数据进行微调，可以达到优异的性能。尽管能够在很多自然语言处理任务上达到优异的性能，但是其由于拥有庞大的体积，导致其遭受难以部署、计算代价较大和推理时间较长等问题。知识蒸馏是压缩PLM方法中的一类方法，也是最常用的一种方法，表示精简、体积较小的PLM(学生模型)，在具有更大规模的、性能更好的PLM(教师模型)的指导下进行训练更新。
[0003]PLM采用多个双向的Transformer模型进行堆叠而成，每一个Transformer的输出是下一个Transformer的输入。通常，每一层Transformer的输出也称为中间层特征。在进行文本分类的时候，其特点是，利用编码器将输入的文字序列转化为包含文字信息的向量，然后在最后一层的时候加入一个分类器，来进行计算输入文本类别概率分布。
[0004]早期的文本分类框架，就是使用卷积神经网络编码输入文本序列，然后使用循环神经网络(RNN，Recurrent Neural Network)转换模型中间向量为对应文本的最终特征向量，然后将该特征向量输入一个分类器进行分类。其中带有注意力机制的PLM在文本分类中的成功应用，将文本分类带上了一个...

【技术保护点】

【技术特征摘要】
1.一种应用于知识蒸馏的知识选择方法，其特征在于包括以下步骤：1)使用文本分类任务的数据训练教师模型；2)使用训练后的教师模型来抽取不同类型的知识，并把这些知识进行分类；3)基于训练后的教师模型来初始化学生模型；4)使用REINFORCE算法训练知识选择模块；5)使用被训练过后的知识选择模块来训练最终的学生模型，训练时知识选择模块根据对应教师模型和学生模型的特征来选择学生模型应该学习的类型的知识。2.按权利要求1所述的应用于知识蒸馏的知识选择方法，其特征在于：步骤1)是使用所拥有的文本分类任务数据进行训练教师模型，表示为：TeacherModel＝ModelTrain(S,B)其中ModelTrain为模型训练函数，S为输入文本集合，B为输入文本的标签，表示单一的训练一个文本分类模型。3.按权利要求1所述的应用于知识蒸馏的知识选择方法，其特征在于：基于步骤2)具体步骤为：201)设文本分类任务为二分类任务，其输入的文本为S＝(s0,s1,s2,
…
s
i
…
,s
m
)，其s
i
表示文本S中的第i个句子；对应文本分类的标签为B＝(b0,b1,b2,
…
b
i
…
,b
m
)，其b
i
表示句子s
i
对应的分类标签，其值为0或1；使用教师模型对所给文本S中句子s
i
进行分类，产生三类不同的知识；202)抽取教师模型对输入句子x
i
所计算出来的概率分布P<...

【专利技术属性】
技术研发人员：杨迪，王之光，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人