一种基于自适应对比知识蒸馏的网络压缩方法和装置制造方法及图纸

技术编号：38348763 阅读：10 留言：0更新日期：2023-08-02 09:28

本发明专利技术公开了一种基于自适应对比知识蒸馏的网络压缩方法及装置。该网络压缩方法包括如下步骤：引入对比性蒸馏损失作为显式监督，以最大化特征负样本对的距离；利用神经网络作为预测器，根据每个样本的学习特征来预测其辨别能力；然后，根据预测的辨别能力对不同样本的损失进行重新加权，以实现样本适应性重加权策略；将样本适应性重加权策略融入到对比性蒸馏损失中，构建自适应对比性蒸馏损失；基于自适应对比性蒸馏损失构建自适应对比知识蒸馏框架，用于实现自然语言处理过程中的神经网络压缩。压缩。压缩。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自适应对比知识蒸馏的网络压缩方法和装置

[0001]本专利技术涉及一种基于自适应对比知识蒸馏的网络压缩方法，同时也涉及相应的网络压缩装置，属于计算机系统

技术介绍

[0002]知识蒸馏（Knowledge Distillation，简写为KD）是一种经典的神经网络压缩方法，其通过引导轻量化的学生网络“模仿”性能更好、结构更复杂的教师网络，在不改变学生网络的情况下提高其性能。在现有技术中，自然语言处理领域常用的BERT模型，其采用的知识蒸馏方法隐含地学习了学生网络的鉴别性特征，也就是说，需要把来自不同类别的样本（负对）的特征推得很远，而把来自相同类别的样本（正对）的特征保持得很近。假设教师网络是经过良好学习的（即在教师网络中，负对的特征是相互远离的），通过最小化教师网络和学生网络之间每个样本的特征距离，使学生网络的特征具有鉴别性，如图1中左侧所示，学生网络中的负对的特征就可以被拉得很远。但是，当常用词出现在具有不同含义的句子中时，会导致教师网络中的负对的特征相互接近，如图1中右侧所示，在这种情况下，使用现有的知识蒸馏范式训练学生网络，将导致学生网络中的负对的特征也是相互接近的。
[0003]在自然语言处理（简写为NLP）任务中，现有的知识蒸馏方法在蒸馏过程中没有充分注意到困难样本，类似的句子可能有完全不同的含义。例如，对于语言可接受性任务，虽然句子“我们把自己喊哑了”和“我们把哈里喊哑了”是相似的，因为二者只有一个不同的词，但是，第一个句子在语言上是可接受的，而后一个句子则不是，使二者属于不同...

【技术保护点】

【技术特征摘要】
1.一种基于自适应对比知识蒸馏的网络压缩方法，用在自然语言处理任务中，其特征在于包括如下步骤：（1）引入对比性蒸馏损失作为显式监督，以最大化特征负样本对的距离；（2）利用一个神经网络作为预测器，根据每个样本的学习特征来预测其辨别能力；然后，根据预测的辨别能力对不同样本的损失进行重新加权，以实现样本适应性重加权策略；（3）将所述样本适应性重加权策略融入到所述对比性蒸馏损失中，构建自适应对比性蒸馏损失；（4）基于所述自适应对比性蒸馏损失构建自适应对比知识蒸馏框架，用于实现自然语言处理过程中的神经网络压缩。2.如权利要求1所述的网络压缩方法，其特征在于：所述步骤（1）中，对于每个样本，利用所述对比性蒸馏损失最大化学生网络中样本的特征与教师网络中样本的特征之间的相似性，并最小化学生网络中样本的特征与教师网络中样本的负样本对特征之间的相似性。3.如权利要求1所述的网络压缩方法，其特征在于：所述步骤（3）中，在自适应对比性蒸馏损失的训练过程中，增加分子项，以使教师网络和学生网络中来自同一样本的特征相互接近，同时减少分母项，以使学生网络中来自不同类别的第个样本的特征远离教师网络中第个样本的特征，其中为正整数。4.如权利要求3所述的网络压缩方法，其特征在于：所述步骤（3）中，给具有较少鉴别特征的样本分配更高的权重，以形成自适应对比性蒸馏损失。5.如权利要求2或3所述的网络压缩方法，其特征在于：所述教师网络为BERT
‑
Base模型，所述学生网络...

【专利技术属性】
技术研发人员：郭晋阳，刘佳恒，王梓宁，刘祥龙，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人