基于共同特征学习的异构神经网络知识重组方法,包括:获取预训练好的多个神经网络模型,称其为教师模型;利用教师模型输出的特征和输出的预测结果,通过一种共同特征学习和软目标蒸馏方法来指导学生模型的训练;在此共同特征学习过程中,通过将多个异构网络的特征投影到一个共同特征区间并使得学生模型集成众多教师模型的知识,而软目标蒸馏方法,使得学生模型的预测结果与教师模型的预测结果一致,从而得到一个具有所有教师模型的任务处理能力的更强大的学生模型。由于仅需模仿教师模型的预测结果,学生模型又可在没有任何人工标注的情况下训练得到。本发明专利技术适用于神经网络模型的知识重组,特别是异构图像分类任务模型的知识重组。
【技术实现步骤摘要】
一种基于共同特征学习的异构神经网络知识重组方法
本专利技术涉及机器学习领域,具体地说,涉及一种基于共同特征学习的异构神经网络知识重组方法
技术介绍
近年来,深度神经网络(DNN)在众多人工智能任务(例如计算机视觉和自然语言处理)中取得了令人瞩目的成功。然而尽管取得了非凡的结果,DNN模型的训练却极其依赖大规模人工标注的数据集,且其训练需时较久。为了减轻复现工作,越来越多的研究人员开始在互联网上发布训练好的模型,以便用户即刻下载和使用它们。重用这些已发布的模型,得到具备多任务处理能力的客制化模型,又无需人工标注数据,将会十分有意义。但是,由于深度学习的快速发展以及随之而来的大量网络变量的出现,这种公开可用的训练模型通常具有各不相同的网络结构,每种网络结构面向特定任务或数据集,这给融合重组这些模型带来了挑战。在本项专利技术中,专利技术人致力于解决一种深度模型融合重用任务,其目标是使用面向多任务的异构教师模型来训练轻量级且可处理多个任务的学生模型。此专利技术方法能够使用多个预训练好的教师模型,训练出一个可胜任所有教师模型任务的学生模型,且无需人工标注信息。传统的知识蒸馏方法,只针对单个教师模型,且目标是模型的压缩,即用一个小的网络模型模仿和学习一个训练好的大网络模型的预测结果,具体描述参见“GeoffreyHinton,OriolVinyals,andJeffDean.Distillingtheknowledgeinaneuralnetwork.arXivpreprintarXiv:1503.02531,2015.”另外,由于教师的架构可能不同,因此直接进行分层特征融合学习是不可行的。因此,本专利技术诉诸另一种方法,即先将教师模型的输出特征投影到一个共享的可学习的特征空间中,然后强制学生模型模仿教师模型转换后的特征,通过在特征和预测结果两方面模仿教师网络的输出来训练得到一个强大的学生模型,无需访问人工标注,就可融合来自异构教师模型的综合知识,并能够解决所有教师模型的任务。
技术实现思路
本专利技术提供了一种基于共同特征学习的异构神经网络知识重组方法。首先对这种方法面向的任务进行定义:假设给定几个预训练好的教师网络,本专利技术的目标是无需标注数据,学习一个学生模型融合所有教师模型的知识,并可以胜任他们的任务。其中,教师模型的架构可以相同也可不同,没有具体限制。一种基于共同特征学习的异构神经网络知识重组方法,包括以下步骤:步骤1,根据客制化需求选择合适的学生模型结构并进行随机初始化,向教师模型和学生模型输入相同的无标签图像数据,分别得到两者的原始输出特征FTi和Fs,并采用适配层对两者进行转换和对齐,得到尺寸一致的fTi和fS;步骤2,引入一个小型可学习的子网络,其参数在教师和学生之间共享,即每个教师和学生模型的共享特征提取器的参数皆相同,称之为共享提取器,通过共享提取器将对齐后的教师和学生的特征转换为公共特征空间下相容的特征;共享提取器将fTi和fS转换为公共空间中的和步骤3,采用最大平均差异(MMD)方法来衡量经步骤2得到的转化特征之间的分布差异性,融合教师模型的特征,并适配教师和学生模型的转化特征的域;具体包括:使用来表示一个教师所有特征的集合,其中Ct是教师特征的总数;类似地,使用来表示学生的所有特征,其中Cs是学生特征的总数;和的MMD距离的近似计算公式如下:其中,是一个隐式映射函数;通过用核函数K(·,·)对该公式进行扩展,得到MMD损失定义如下:核函数可将样本矢量投影到更高维的特征空间中;需要指出的是,此处采用的是归一化之后的特征和然后,将学生模型和N个老师之间的MMD损失结合起来,定义公共特征空间学习的总体损失LM为:步骤4,将转移后的特征输入可训练的自编码器来重建教师模型的原始输出特征,设F′Ti表示教师原始特征FTi的重构特征,衡量重构特征与原始特征之间的差异,并定义重构损失LR定义为:通过衡量LR使转换到公共空间的特征可以逆向映射为原始特征,确保在特征转化过程中丢失尽可能少的信息,从而使公共特征空间的学习更加鲁棒;步骤5,令学生模型模仿教师模型对输入的无标注样本的预测结果,并将学生模型与教师模型对于相同任务的预测结果的差异作为最后一项损失函数,称为目标蒸馏损失;具体而言,在图像分类任务上,对于目标类别没有重叠的教师模型,直接叠加他们的分数向量,即用串联的分数向量作为学生模型学习的目标;此外,对重叠的老师也使用相同的策略:在训练时,将重叠的类别视为多个不同的类别,但在测试过程中,将它们视为同一类别;令wi表示将教师模型的输出特征映射到分数图的参数,而ws表示学生的相应参数,则驱使学生网络的响应分数接近教师的预测目标的损失函数LC为:LC=‖ws·Fs-[w1·F1,…,wN·FTN]‖2(5)步骤6,将步骤3、步骤4,步骤5定义的损失通过超参数权重结合在一起构成网络的总体损失函数,并计算其值:L=LC+(1-α)(LM+LR),α∈[0,1](6)步骤7,计算网络的梯度,并使整个网络模型以最小化总体损失的梯度方向进行参数更新,得到更新参数之后的网络,再回到步骤1,整个训练过程不断迭代,直至损失函数收敛,所得的学生模型即为目标模型。优选地,步骤1所述的教师模型的结构包括但不限于残差网络、VGG网络,学生模型的结构根据实际需求而定。优选地,步骤1所述的适配层的组成包括但不限于几层1×1卷积,每个教师和学生模型的适配层参数各不相同,通过学习得到;适配层通道数可设置为经验值256,也可根据实际需求自行设定。优选地,步骤2所述的共享特征提取器是由三个1×1步幅的残差模块组成的小型卷积网络;此外,和通道数都设定为128,此值为根据经验设定,在实际操作过程中,可根据情况适当调整。优选地,在步骤5所述的软目标蒸馏模块中,目标蒸馏损失LC定义为学生网络的响应分数与教师模型的预测分数之间的差异性,可以使用包括但不限于计算均方误差(MSE)的方法进行衡量。本专利技术的基于共同特征学习的异构神经网络知识重组方法包括:获取预训练好的多个神经网络模型,称其为教师模型;利用教师模型输出的特征和输出的预测结果,通过一种共同特征学习和软目标蒸馏方法来指导学生模型的训练;在此共同特征学习过程中,通过将多个异构网络的特征投影到一个共同特征区间并使得学生模型集成众多教师模型的知识,而软目标蒸馏方法,使得学生模型的预测结果与教师模型的预测结果一致,从而得到一个轻量级而有具有所有教师模型的任务处理能力的更强大的学生模型。由于仅需模仿教师模型的预测结果,学生模型又可在没有任何人工标注的情况下训练得到。本专利技术适用于神经网络模型的知识重组,特别是异构图像分类任务模型的知识重组。本专利技术的优点是:通过重用已发布的模型,在无需人工标注的情况下,即可训练得到具备多任务处理能力的客制化模型,充分利用了资源,节省了大量人工成本。附图说明图1本专利技术方法的总体框架图。图2专利技术方法中共同特征学习模本文档来自技高网...
【技术保护点】
1.一种基于共同特征学习的异构神经网络知识重组方法,包括以下步骤:/n步骤1,根据客制化需求选择合适的学生模型结构并进行随机初始化,向教师模型和学生模型输入相同的无标签图像数据,分别得到两者的原始输出特征F
【技术特征摘要】
1.一种基于共同特征学习的异构神经网络知识重组方法,包括以下步骤:
步骤1,根据客制化需求选择合适的学生模型结构并进行随机初始化,向教师模型和学生模型输入相同的无标签图像数据,分别得到两者的原始输出特征FTi和Fs,并采用适配层对两者进行转换和对齐,得到尺寸一致的fTi和fS;
步骤2,引入一个小型可学习的子网络,其参数在教师和学生之间共享,即每个教师和学生模型的共享特征提取器的参数皆相同,称之为共享提取器,通过共享提取器将对齐后的教师和学生的特征转换为公共特征空间下相容的特征;共享提取器将fTi和fS转换为公共空间中的和
步骤3,采用最大平均差异(MMD)方法来衡量经步骤2得到的转化特征之间的分布差异性,融合教师模型的特征,并适配教师和学生模型的转化特征的域;具体包括:使用来表示一个教师所有特征的集合,其中Ct是教师特征的总数;类似地,使用来表示学生的所有特征,其中Cs是学生特征的总数;和的MMD距离的近似计算公式如下:
其中,是一个隐式映射函数;通过用核函数K(·,·)对该公式进行扩展,得到MMD损失定义如下:
核函数可将样本矢量投影到更高维的特征空间中;需要指出的是,此处采用的是归一化之后的特征和然后,将学生模型和N个老师之间的MMD损失结合起来,定义公共特征空间学习的总体损失LM为:
步骤4,将转移后的特征输入可训练的自编码器来重建教师模型的原始输出特征,设F′Ti表示教师原始特征FTi的重构特征,衡量重构特征与原始之间的差异,并定义重构损失LR定义为:
通过衡量LR使转换到公共空间的特征可以逆向映射为原始特征,确保在特征转化过程中丢失尽可能少的信息,从而使公共特征空间的学习更加鲁棒;
步骤5,令学生模型模仿教师模型对输入的无标注样本的预测结果,并将学生模型与教师模型对于相同任务的预测结果的差异作为最后一项损失函数,称为目标蒸馏损失;具体而言,在图像分类任务上,对于目标类别没有重叠...
【专利技术属性】
技术研发人员:宋明黎,罗思惠,方共凡,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。