当前位置: 首页 > 专利查询>复旦大学专利>正文

无监督域适应中的实例感知模型集成和蒸馏方法技术

技术编号:38588826 阅读:6 留言:0更新日期:2023-08-26 23:29
本发明专利技术公开了无监督域适应中的实例感知模型集成和蒸馏方法,涉及深度学习、计算机视觉技术技术领域,包括如下步骤:使用来表示具有相同骨干网络和相同输出大小的n个不同的UDA模型,区别可能来自于不同的学习方法和不同的随机种子,中的参数用表示,表示F

【技术实现步骤摘要】
无监督域适应中的实例感知模型集成和蒸馏方法


[0001]本专利技术涉及深度学习、计算机视觉技术
,尤其涉及无监督域适应中的实例感知模型集成和蒸馏方法。

技术介绍

[0002]集成学习作为一种有效的机器学习方法,在改善各种基于深度学习的视觉任务性能方面已经表现出了其优势。传统上,平均各组件模型的输出是一种有效的集成方式,但面临着大量参数和高计算成本的挑战。因此,知识蒸馏试图训练一个学生模型来模仿老师的输出,可以将集成模型精炼为小型学生模型。学生模型不仅能够达到理想的结果,而且还能减少计算成本。最近,只有少数几篇论文,尝试将集成蒸馏模型引入到UDA中。这些工作展示了如何训练一个集成UDA模型来学习互补信息,并将知识转移给一个紧凑的学生模型。
[0003]首先,大多数现有的UDA中的集成蒸馏模型,只是使用平均集成方法,这意味着特征融合将所有实例平等对待,不区分实例。忽略了每个实例具有自己的表示特征,并对训练集成模型具有不同的能力。因此,特征融合应该能够有条件地动态调整其参数,以适应每个实例,
[0004]其次,无监督域自适应(UDA)中目标域是变化且不可预测的,并且目标域中对象的特征生成的空间非常大。因此,我们设计的原始组件模型的特征融合应该考虑这一点,为每个实例产生具有代表性但易于适应的特征,并将目标域映射到多样化且足够大的特征空间中。这可以增强集成模型的代表性能力,供不可控的目标域使用,并促进其在不同域之间的转移。然而,现有的集成蒸馏方法,主要采用静态融合,这意味着给组件模型预分配了一组固定的融合系数,产生了有限的特征空间,因此亟需无监督域适应中的实例感知模型集成和蒸馏方法来改变这一现状。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术中存在的缺点,而提出的无监督域适应中的实例感知模型集成和蒸馏方法。其优点在于现了鲁棒性和有效性较强的UDA模型,大大降低了集成计算成本,同时保持了良好的性能。
[0006]为了实现上述目的,本专利技术采用了如下技术方案:
[0007]无监督域适应中的实例感知模型集成和蒸馏方法,包括以下步骤:
[0008]步骤一:使用来表示具有相同骨干网络和相同输出大小的n个不同的UDA模型,区别可能来自于不同的学习方法和不同的随机种子,中的参数用表示,表示F
i
提取的特征,其维度为d
f
,通常我们为每个组件模型使用单独的分类器,表示为
[0009]其参数表示为共享分类器有时也对表示来自不同组件模型的所有特征更有效,但具有更少的参数,G
i
=G,(1≤i≤n),其中G表示此处采用的共享分类器,通过
分类器{我们可以从每个组件模型分别获取预测伪标签,即g
i
=G
i
(f
i
),(1≤i≤n),其维度为d
g
,对于每个组件模型,我们将每个模型的个体损失函数表示为组件模型的训练方法遵循训练公式;
[0010]步骤二:通过获取特征表示和预测的伪标签我们可以从集成模型获得集成特征,集成模型的详细信息将在第B节中介绍,我们将集成模型称为E,其参数为θ
E
,源域和目标域中的集成特征表示分别表示为f
s
和f
t
,其中将集成特征表示传递给分类器J,J只是一个全连接线性层,其参数表示为θ
J
,我们可以通过g
s
=J(f
s
)和g
t
=J(f
t
)获得集成预测,其次,将一个条件式对抗领域判别器添加到集成模型中,针对集成特征和预测进行条件设定,以减少领域差异,判别器标记为D,具有参数θ
D
,最后,应用知识蒸馏生成一个紧凑的学生模型,其参数大小与组件模型相当,但性能更好;
[0011]步骤三:使用特征表示和伪标签我们首先计算f
i
与g
i
之间的多线性映射:由于T
ml
(f
i
,g
i
)的维度是d
f
×
d
g
,可能会引起维度爆炸,因此当d
f
×
d
g
≥4096[3]时,我们使用随机多线性映射来近似多线性,我们生成随机矩阵和这些矩阵仅在训练时随机采样一次并被冻结,W
ij
的元素遵循标准正态分布,然后,f
i
与g
i
之间的随机多线性映射为其中

表示按元素相乘,因此可得到公式一,然后,我们通过将公式一中的多线性映射拼接起来,得到内生网络的输入,并将内生网络的输出作为融合子网络的参数;
[0012]通过融合子网络,我们可以得到集成特征f
s
,f
t
和集成预测g
s
,g
t
,然后,源域分类损失、鉴别性损失分别通过计算,D的架构与CDANs中的判别器相同,这是一个原则性的框架,将对抗适应模型的条件设定在分类器预测中传递的鉴别信息上,因此可得到公式二;
[0013]步骤四:此外,研究表明,减少类别混淆可导致目标域中的性能提升,其中类别混淆是指分类器在目标域中混淆正确和模糊标签的趋势,对于来自目标域的每一批数据(即X
t
表示输入),以及通过我们的集成模型得到的集成预测(其中B是目标数据的批量大小,|C|为类别数),目标域上的成对类别混淆公式三,有条件的对抗判别器的极小极大博弈,此外,研究发现,收敛到任务损失的平滑最小值(即分类)可以稳定对抗训练,这将导致在目标域中更好的泛化性能,我们将平滑域对抗训练的优化目标定义为公式四,然后,我们使用名为Sharpness Aware Minimization的方法,利用两个梯度计算步骤得到上述优化目标方程的解;
[0014]步骤五:将V1作为融合子网络的网络参数,我们通过将特征连接起来生成子网络的输入V2:
[0015]V2=(f1,f2,

,f
n
)
[0016]以这种方式,融合子网络的参数将在很大程度上依赖于输入实例,但是,如果子网络的架构直接使用全连接线性层,则参数的数量将非常大,很难仅通过内生网络进行学习,因此,我们首先将输入均匀地分为h组(位于位置A),并将乱序线性层的输出也分成h组(位
于位置C),我们希望通过稀疏连接尽可能多地利用输出信息,因此我们将输入的第i组(1≤i≤h)分成h个子组(如位置B所示),并将第i组的子组分别连接到输出的h组(位置C),C,D,E之间的关系类似;
[0017]如果组数是h,输入的维度表示为d
i
(位置A),输出的维度表示为d
o
(位置C),那么从位置A到位置C的shuffle线性层的总参数为因此,所需参数的数量将随h减少,当h较小时,我们考虑组内共享参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.无监督域适应中的实例感知模型集成和蒸馏方法,其特征在于,包括以下步骤:步骤一:使用来表示具有相同骨干网络和相同输出大小的n个不同的UDA模型,区别可能来自于不同的学习方法和不同的随机种子,中的参数用表示,表示F
i
提取的特征,其维度为d
f
,通常我们为每个组件模型使用单独的分类器,表示为其参数表示为共享分类器有时也对表示来自不同组件模型的所有特征更有效,但具有更少的参数,G
i
=G,(1≤i≤n),其中G表示此处采用的共享分类器,通过分类器{我们可以从每个组件模型分别获取预测伪标签,即g
i
=G
i
(f
i
),(1≤i≤n),其维度为d
g
,对于每个组件模型,我们将每个模型的个体损失函数表示为组件模型的训练方法遵循训练公式;步骤二:通过获取特征表示和预测的伪标签我们可以从集成模型获得集成特征,集成模型的详细信息将在第B节中介绍,我们将集成模型称为E,其参数为θ
E
,源域和目标域中的集成特征表示分别表示为f
s
和f
t
,其中将集成特征表示传递给分类器J,J只是一个全连接线性层,其参数表示为θ
J
,我们可以通过g
s
=J(f
s
)和g
t
=J(f
t
)获得集成预测,其次,将一个条件式对抗领域判别器添加到集成模型中,针对集成特征和预测进行条件设定,以减少领域差异,判别器标记为D,具有参数θ
D
,最后,应用知识蒸馏生成一个紧凑的学生模型,其参数大小与组件模型相当,但性能更好;步骤三:使用特征表示和伪标签我们首先计算f
i
与g
i
之间的多线性映射:由于T
ml
(f
i
,g
i
)的维度是d
f
×
d
g
,可能会引起维度爆炸,因此当d
f
×
d
g
≥4096[3]时,我们使用随机多线性映射来近似多线性,我们生成随机矩阵和这些矩阵仅在训练时随机采样一次并被冻结,W
i,j
的元素遵循标准正态分布,然后,f
i
与g
i
之间的随机多线性映射为其中

表示按元素相乘,因此可得到公式一,然后,我们通过将公式一中的多线性映射拼接起来,得到内生网络的输入,并将内生网络的输出作为融合子网络的参数;通过融合子网络,我们可以得到集成特征f
s
,f
t
和集成预测g
s
,g
t
,然后,源域分类损失、鉴别性损失分别通过计算,D的架构与CDANs中的判别器相同,这是一个原则性的框架,将对抗适应模型的条件设定在分类器预测中传递的鉴别信息上,因此可得到公式二;步骤四:此外,研究表明,减少类别混淆可导致目标域中的性能提升,其中类别混淆是指分类器在目标域中混淆正确和模糊标签的趋势,对于来自目标域的每一批数据(即X
t
表示输入),以及通过我们的集成模型得到的集成预测(其中B是目标数据的批量大小,|C|为类别数),目标域上的成对类别混淆公式三,有条件的对抗判别器的极小极大博弈,此外,研究发现,收敛到任务损失的平滑最小值(即分类)可以稳定对抗训练,这将导致在目标域中更好的泛化性能,我们将平滑域对抗训练的优...

【专利技术属性】
技术研发人员:陈涛吴伟民李太豪
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1