一种双向判别性特征对齐的分层知识融合方法及装置制造方法及图纸

技术编号:36867480 阅读:16 留言:0更新日期:2023-03-15 19:21
本发明专利技术公开了一种双向判别性特征对齐的分层知识融合方法,包括:将样本输入教师模型得到教师软预测结果集合,将无标签图像数据输入初始学生模型得到学生模型预测结果;提取最后一层特征,并将最后一层特征输入到共同特征提取器中得到共同特征;通过判别质心聚类策略使不同类中心彼此远离,同时将每个教师共同特征向同类类中心接近;通过熵杂质衡量教师软预测结果的模糊度,构建可靠的源域特征和目标域特征,将伪标签分别与源域的共同特征和目标域的共同特征进行Kronecker积进行区分性映射,通过最大平均差异方法进行特征对齐;构建总损失函数,通过总损失函数训练初始学生模型得到能够准确分类的综合性学生模型。能够准确分类的综合性学生模型。能够准确分类的综合性学生模型。

【技术实现步骤摘要】
一种双向判别性特征对齐的分层知识融合方法及装置


[0001]本专利技术属于人工智能领域,具体涉及一种双向判别性特征对齐的分层知识融合方法及装置。

技术介绍

[0002]近年来,深度神经网络(DNN)在许多人工智能任务中取得了令人瞩目的成功,例如计算机视觉和自然语言处理。然而,广泛使用的DNN的成功依赖于昂贵的计算成本和存储以及大量的人工注释。为了减轻复制工作,许多研究人员在网上发布了他们训练有素的模型,这促使我们以即插即用的方式重用它们。
[0003]作为一种模型重用策略,知识融合(KA)算法在各种应用中取得了令人瞩目的性能。他们研究如何有效地利用多个预训练的教师网络,以训练一个全面的小型学生模型,以处理未标记数据的教师的所有任务。这些传统KA方法中的学生通常被训练来模仿未标记的数据对应的教师输出(称为分类分数学习)和/或中间层(称为特征学习)。
[0004]然而,公开可用的训练模型通常具有不同的架构。因此,更现实的场景是异构知识融合(HKA)。在这种情况下,学生不能像往常一样直接从老师的每个网络层之间引入的特征中学习。因此他们只能利用分类分数学习来达到目的,例如Data

free KA和SKA。
[0005]公开号为CN111160409A的中国专利公开了基于共同特征学习的异构神经网络知识融合方法,包括:获取预训练好的多个神经网络模型,称其为教师模型:利用教师模型输出的特征和输出的预测结果,通过一种共同特征学习和软目标蒸馏方法来指导学生模型的训练:在此共同特征学习过程中,通过将多个异构网络的特征投影到一个共同特征区间并使得学生模型集成众多教师模型的知识,而软目标蒸馏方法,使得学生模型的预测结果与教师模型的预测结果一致,从而得到一个具有所有教师模型的任务处理能力的更强大的学生模型。上述公开的专利适用于神经网络模型的知识融合,特别是异构图像分类任务模型的知识融合。
[0006]但是仅仅盲目地将学生特征和教师特征进行对齐是粗鲁的,在不进行区分性特征对齐的方式下训练的学生很大可能与不相关的类别特征对齐或被其干扰而降低分类性能。因此学生在这种情况下很难从老师那里学习真实的数据分布,从而导致异构知识融合的性能都普遍较低且泛化性较差。

技术实现思路

[0007]本专利技术提供了一种双向判别性特征对齐的分层知识融合方法,该方法能够通过较少的训练得到能够准确的判断无标签图像数据的类别的学生模型。
[0008]一种双向判别性特征对齐的分层知识融合方法,包括:
[0009](1)获得无标签图像数据集、教师模型,构建初始学生模型,将无标签图像数据作为样本,将样本输入教师模型得到教师软预测结果集合,并将进行拼接的教师软预测结果输入至激活函数得到伪标签,将无标签图像数据输入初始学生模型得到学生模型预测结
果;
[0010](2)分别提取教师模型和初始学生模型中的最后一层特征,并将最后一层特征输入到共同特征提取器中分别得到教师共同特征集合和学生共同特征;基于伪标签对应的类标志符采用增量学习策略确定类中心,通过判别质心聚类策略对教师模型中的不同类中心进行距离惩罚,使不同类中心彼此远离,同时将每个教师共同特征向同类类中心接近以得到聚类共同特征集;
[0011](3)将教师软预测结果进行拼接,将拼接结果输入至激活函数得到伪标签;将教师软预测结果输入到熵杂质公式,以衡量教师软预测结果的模糊度,然后对模糊度归一化后的结果与约束边界进行比较,筛选满足要求的自信教师模型,将筛选的自信教师模型对应的聚类共同特征集合和学生共同特征进行混合得到混合域共同特征集合,从混合域共同特征集合中随机筛选部分共同特征集合作为源域特征,然后将剩余的共同特征集合作为目标域特征,使用Kronecker积将共同特征和对应的伪标签进行绑定,使得源域和目标域的共同特征得以区分性映射,达到源域和目标域中的同一类特征映射到同一子空间的目的,最后将源域特征和目标域特征中映射后的共同特征通过最大平均差异方法进行对齐;
[0012](4)构建总损失函数,通过总损失函数训练初始学生模型得到最终学生模型,总损失函数包括判别质心聚类策略损失函数、可靠联合组合损失函数、重建损失函数和分类分数损失函数;
[0013]其中,基于教师模型中的最后一层特征和重构特征构建重建损失函数,基于教师模型的共同特征采用多层卷积神经网络得到教师模型的重构特征,基于多个类中心和每个教师共同特征构建判别质心聚类策略损失函数;基于源域特征和目标域特征分别与对应的伪标签进行Kronecker积的结果差采用最大平均差异损失构建可靠联合组合损失函数;基于教师软预测结果集合和学生模型预测结果通过交叉熵损失构建分类分数损失函数;
[0014](5)应用时,将无标签的图像数据输入至最终学生模型得到无标签的图像数据的类别。
[0015]并将最后一层特征输入到共同特征提取器中分别得到教师共同特征集合和学生共同特征,包括:
[0016]先将最后一层特征分别输入单独参数化的适应层以对齐特征维度得到多个适应层特征,通过共享提取器将多个适应层特征转换至同质公开空间得到教师共同特征集合和学生共同特征。
[0017]基于伪标签对应的类标志符采用增量学习策略确定第n个教师模型的批量样本数为τ的第k个类标志符的类中心为:
[0018][0019]其中,τ为批量样本数的索引,t
n
为第n个教师模型,k为类标志符的索引,m为动量累积超参数。
[0020]将加和结果输入至激活函数得到伪标签y为:
[0021]y=argmax(softmax(c))
[0022][0023]其中,N为教师模型的数量,为第n个教师软预测结果。
[0024]通过熵杂质衡量第n个教师模型对第i个无标签图像数据类别软预测的模糊度为:
[0025][0026]其中,K为类标志符的个数,为第n个教师模型对第i个无标签图像数据类别的软预测。
[0027]对模糊度归一化后与边际约束进行比较得到满足比较要求的教师模型数L为:
[0028][0029]其中,为归一化算子,η为边际约束值,为满足比较要求的第n个教师模型。
[0030]总损失函数为:
[0031][0032][0033][0034][0035][0036]其中,分别为第n个教师模型的第i样本的重构特征和最后一层特征,B是批数量,N是教师的个数,λ
C
为分类分数损失权重,λ
J
为联合组对齐损失权重,λ
DR
为重构损失和类中心损失在总损失中的权重,为分类分数损失函数,为可靠联合组合损失函数,为判别质心聚类策略损失函数,为重建损失函数,B为无标签图像数据数,为交叉损失函数,为针对第i个无标签图像数据学生模型预测结果,为针对第i个无标签图像数据第n个教师模型软预测结果,T为多组混合共同特征域排列组合个数,P为源域
中的共同特征个数,Q为目标域的共同特征个数,为逻辑函数,为第i个无本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种双向判别性特征对齐的分层知识融合方法,其特征在于,包括:(1)获得无标签图像数据集、教师模型,构建初始学生模型,将无标签图像数据作为样本,将样本输入教师模型得到教师软预测结果,并将进行拼接的教师软预测结果输入至激活函数得到伪标签,将无标签图像数据输入初始学生模型得到学生模型预测结果;(2)分别提取教师模型和初始学生模型中的最后一层特征,并将最后一层特征输入到共同特征提取器中分别得到教师共同特征集合和学生共同特征;基于伪标签对应的类标志符采用增量学习策略确定类中心,通过判别质心聚类策略对教师模型中的不同类中心进行距离惩罚,使不同类中心彼此远离,同时将每个教师共同特征向同类类中心接近以得到聚类共同特征集;(3)将每个教师软预测结果输入到熵杂质公式,以衡量教师软预测结果的模糊度,然后对模糊度归一化后的结果与约束边界进行比较,筛选满足要求的自信教师模型,将筛选的自信教师模型对应的聚类共同特征集合和学生共同特征进行混合得到混合域共同特征集合,从混合域共同特征集合中随机筛选部分共同特征集合作为源域特征,然后将剩余的共同特征集合作为目标域特征,使用Kronecker积将共同特征和对应的伪标签进行绑定,使得源域和目标域的共同特征得以区分性映射,达到源域和目标域中的同一类特征映射到同一子空间的目的,最后将源域特征和目标域特征中映射后的共同特征通过最大平均差异方法进行对齐;(4)构建总损失函数,通过总损失函数训练初始学生模型得到最终学生模型,总损失函数包括判别质心聚类策略损失函数、可靠的联合组合损失函数、重建损失函数和分类分数损失函数;其中,基于教师模型中的最后一层特征和重构特征构建重建损失函数,基于教师模型的共同特征采用多层卷积神经网络得到教师模型的重构特征,基于多个类中心和每个教师共同特征构建判别质心聚类策略损失函数;基于源域特征和目标域特征分别与对应的伪标签进行Kronecker积的结果采用最大平均差异损失构建可靠联合组合损失函数;基于教师软预测结果集合和学生模型预测结果通过交叉熵损失构建分类分数损失函数;(5)应用时,将无标签的图像数据输入至最终学生模型得到无标签的图像数据的类别。2.根据权利要求1所述的双向判别性特征对齐的分层知识融合方法,其特征在于,并将最后一层特征输入到共同特征提取器中分别得到教师共同特征集合和学生共同特征,包括:先将最后一层特征分别输入单独参数化的适应层以对齐特征维度得到多个适应层特征,通过共享提取器将多个适应层特征转换至同质共同空间得到教师共同特征集合和学生共同特征。3.根据权利要求1所述的双向判别性特征对齐的分层知识融合方法,其特征在于,基于伪标签对应的类标志符采用增量学习策略确定第n个教师模型的批量样本数为τ的第k个类标志符的类中心为:其中,τ为批量样本数的索引,t
n
为第n个教师模型,k为类标志符的索引,m为动量累积超...

【专利技术属性】
技术研发人员:徐仁军梁朔颖
申请(专利权)人:浙江大学杭州国际科创中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1