基于知识蒸馏的多自监督任务融合方法、装置及存储介质制造方法及图纸

技术编号：35266719 阅读：16 留言：0更新日期：2022-10-19 10:30

本发明专利技术公开了一种基于知识蒸馏的多自监督任务融合方法、装置及存储介质，建立多个第一神经网络模型、多个自监督任务、分类任务和第二神经网络模型，分别使用各自监督任务，对相应的第一神经网络模型进行自监督训练；通过知识蒸馏融合各第一神经网络模型与第二神经网络模型，使用分类任务对第二神经网络模型进行训练等步骤。本发明专利技术应用了知识蒸馏技术，能够借助经过自监督任务训练的第一神经网络模型，提升第二神经网络模型的性能，使得对第二神经网络模型的训练，融合了有监督学习容易训练得到准确度高的网络模型，以及自监督学习容易进行大规模训练的优点，使得有监督学习与自监督学习的优缺点互补。本发明专利技术广泛应用于人工智能技术领域。智能技术领域。智能技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识蒸馏的多自监督任务融合方法、装置及存储介质

[0001]本专利技术涉及人工智能
，尤其是一种基于知识蒸馏的多自监督任务融合方法、装置及存储介质。

技术介绍

[0002]深度学习技术可以分为三大分支：有监督学习、无监督学习以及自监督学习。其中，有监督学习是指利用大量带有标注的数据训练神经网络，通过最小化网络输出和标签的之间的损失来优化网络，让模型拥有智能。无监督学习算法没有标签，因此训练模型往往没有明确目标，对于训练结果也可能并不确定，在本质上来说，无监督学习算法是一种概率统计的方法，用以在数据中发现一些潜在结构。在拥有大量未标注数据和少量标注数据的半监督任务场景，由于缺少标注，单纯有监督学习达不到好的效果，这个时候可以应用自监督技术利用无标注数据增强模型性能。而自监督学习指的是模型通过解决代理任务，最小化模型输出和由代理任务自动生成的伪标签之间的损失来优化网络，使得模型能再自监督代理任务的下游任务的微调中有更好的效果。
[0003]综上可知，有监督学习、无监督学习以及自监督学习均有其各自的优点，但是单独来看也有其各自的缺点。例如，有监督学习的训练数据的获取成本较高，难以获取到大规模的数据训练神经网络，各种学习方式的优点未被融合。

技术实现思路

[0004]针对目前的有监督学习与自监督学习各自存在的技术缺点，本专利技术的目的在于提供一种基于知识蒸馏的多自监督任务融合方法、装置及存储介质。
[0005]一方面，本专利技术实施例包括一种基于知识蒸馏的多自监督任务融合方法，包括：...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏的多自监督任务融合方法，其特征在于，所述基于知识蒸馏的多自监督任务融合方法包括：建立多个第一神经网络模型和多个自监督任务；各所述第一神经网络模型与各所述自监督任务一一对应；分别使用各所述自监督任务，对相应的所述第一神经网络模型进行自监督训练；建立分类任务和第二神经网络模型；通过知识蒸馏融合各所述第一神经网络模型与所述第二神经网络模型，使用所述分类任务对所述第二神经网络模型进行训练。2.根据权利要求1所述的基于知识蒸馏的多自监督任务融合方法，其特征在于，所述通过知识蒸馏融合各所述第一神经网络模型与所述第二神经网络模型，使用所述分类任务对所述第二神经网络模型进行训练，包括：获取所述分类任务对应的样本数据以及真实标签；将所述样本数据分别输入至各所述第一神经网络模型；获取各所述第一神经网络模型对所述样本数据进行处理分别产生的输出结果；融合各所述第一神经网络模型的输出结果，获得软标签；将所述样本数据输入至所述第二神经网络模型；获取所述第二神经网络模型对所述样本数据进行处理产生的预测结果；获取所述第二神经网络模型对所述样本数据进行处理产生的软预测结果；根据所述预测结果与所述真实标签，确定第一损失函数值；根据所述软预测结果与所述软标签，确定第二损失函数值；根据所述第一损失函数值与所述第二损失函数值，确定第三损失函数值；根据所述第三损失函数值，优化更新所述第二神经网络模型的网络参数。3.根据权利要求2所述的基于知识蒸馏的多自监督任务融合方法，其特征在于，所述融合各所述第一神经网络模型的输出结果，获得软标签，包括：将各所述第一神经网络模型的输出结果加权相加，获得所述软标签。4.根据权利要求2所述的基于知识蒸馏的多自监督任务融合方法，其特征在于，所述获取所述第二神经网络模型...

【专利技术属性】
技术研发人员：刘嘉滨，张轩铭，陈曾平，胡俊，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人