【技术实现步骤摘要】
一种基于共同特征学习的异构神经网络知识重组方法
本专利技术涉及机器学习领域,具体地说,涉及一种基于共同特征学习的异构神经网络知识重组方法
技术介绍
近年来,深度神经网络(DNN)在众多人工智能任务(例如计算机视觉和自然语言处理)中取得了令人瞩目的成功。然而尽管取得了非凡的结果,DNN模型的训练却极其依赖大规模人工标注的数据集,且其训练需时较久。为了减轻复现工作,越来越多的研究人员开始在互联网上发布训练好的模型,以便用户即刻下载和使用它们。重用这些已发布的模型,得到具备多任务处理能力的客制化模型,又无需人工标注数据,将会十分有意义。但是,由于深度学习的快速发展以及随之而来的大量网络变量的出现,这种公开可用的训练模型通常具有各不相同的网络结构,每种网络结构面向特定任务或数据集,这给融合重组这些模型带来了挑战。在本项专利技术中,专利技术人致力于解决一种深度模型融合重用任务,其目标是使用面向多任务的异构教师模型来训练轻量级且可处理多个任务的学生模型。此专利技术方法能够使用多个预训练好的教师模型,训练出一个可胜任所有教师模型任 ...
【技术保护点】
1.一种基于共同特征学习的异构神经网络知识重组方法,包括以下步骤:/n步骤1,根据客制化需求选择合适的学生模型结构并进行随机初始化,向教师模型和学生模型输入相同的无标签图像数据,分别得到两者的原始输出特征F
【技术特征摘要】
1.一种基于共同特征学习的异构神经网络知识重组方法,包括以下步骤:
步骤1,根据客制化需求选择合适的学生模型结构并进行随机初始化,向教师模型和学生模型输入相同的无标签图像数据,分别得到两者的原始输出特征FTi和Fs,并采用适配层对两者进行转换和对齐,得到尺寸一致的fTi和fS;
步骤2,引入一个小型可学习的子网络,其参数在教师和学生之间共享,即每个教师和学生模型的共享特征提取器的参数皆相同,称之为共享提取器,通过共享提取器将对齐后的教师和学生的特征转换为公共特征空间下相容的特征;共享提取器将fTi和fS转换为公共空间中的和
步骤3,采用最大平均差异(MMD)方法来衡量经步骤2得到的转化特征之间的分布差异性,融合教师模型的特征,并适配教师和学生模型的转化特征的域;具体包括:使用来表示一个教师所有特征的集合,其中Ct是教师特征的总数;类似地,使用来表示学生的所有特征,其中Cs是学生特征的总数;和的MMD距离的近似计算公式如下:
其中,是一个隐式映射函数;通过用核函数K(·,·)对该公式进行扩展,得到MMD损失定义如下:
核函数可将样本矢量投影到更高维的特征空间中;需要指出的是,此处采用的是归一化之后的特征和然后,将学生模型和N个老师之间的MMD损失结合起来,定义公共特征空间学习的总体损失LM为:
步骤4,将转移后的特征输入可训练的自编码器来重建教师模型的原始输出特征,设F′Ti表示教师原始特征FTi的重构特征,衡量重构特征与原始之间的差异,并定义重构损失LR定义为:
通过衡量LR使转换到公共空间的特征可以逆向映射为原始特征,确保在特征转化过程中丢失尽可能少的信息,从而使公共特征空间的学习更加鲁棒;
步骤5,令学生模型模仿教师模型对输入的无标注样本的预测结果,并将学生模型与教师模型对于相同任务的预测结果的差异作为最后一项损失函数,称为目标蒸馏损失;具体而言,在图像分类任务上,对于目标类别没有重叠...
【专利技术属性】
技术研发人员:宋明黎,罗思惠,方共凡,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。