一种提升基于对抗的无监督域适应效果的迁移学习方法技术

技术编号:38740567 阅读:15 留言:0更新日期:2023-09-08 23:25
本发明专利技术公开了一种提升基于对抗的无监督域适应效果的迁移学习方法,该方法基于CNN与Transformer的混合网络结构,以利用卷积运算和自关注机制来增强表示学习,从而充分对齐域适应中域漂移的关键问题。基于域适应对抗范式,设计方法为:步骤1:先对源域和目标域数据进行预处理;步骤2:构造训练集和测试集;步骤3:搭建CNN与Transformer耦合的双分支并行混合模型作为主干网络(包含特征特区器G和分类器F)及域判别器D;步骤4:将步骤2得到的来自源域与目标域的图像按批次输入网络两个分支进行对抗训练直至训练完成;步骤5:将测试集上的图片经过训练好的模型,得到模型预测结果并报告分类精度。本发明专利技术无监督域适应方法提出了双分支对齐模块来分别对齐源域与目标域不同语义下的特征分布,提高了迁移学习领域中源域与目标域存在域漂移的问题下的域适应效果。目标域存在域漂移的问题下的域适应效果。目标域存在域漂移的问题下的域适应效果。

【技术实现步骤摘要】
一种提升基于对抗的无监督域适应效果的迁移学习方法


[0001]本专利技术属于迁移学习领域,具体涉及一种提升基于对抗的无监督域适应效果的的迁移学习方法。

技术介绍

[0002]大规模标记训练数据集使深层神经网络能够在广泛的基准视觉任务中表现出色。然而,在许多应用中,获取大量标记数据的成本高昂且耗时。为了处理有限的标记训练数据,许多人试图将在大规模标记源域上训练的模型直接应用于另一个稀疏标记或未标记的目标域。一般来说,训练后的模型在分布与训练数据集相似的测试数据集上表现良好。然而,在许多实际场景中,直接将这些经过训练的模型应用到新领域通常会导致性能显著下降。域自适应是一种机器学习范式,旨在从源域学习模型,该模型可以在不同(但相关)的目标域上表现良好。
[0003]在过去的十年中,深度神经网络(DNN)在各种计算机视觉任务中取得了重大进展,在这些任务中可以获得大规模的标记训练数据。例如,大规模视觉识别挑战赛(Large Scale Visual Recognition Challenge)中“提供训练数据的分类+定位”任务的分类误差从2010年的0.28减少到2017年的0.022,甚至超过人类。然而,在许多应用中,很难获得大量标签,因为手工注释既昂贵又耗时。一种可行的解决方案是在另一个相关的带有标签的大规模源域(如模拟域)上训练模型,并将其应用于未标记的目标域(如真实域)。然而,由于存在域偏移(训练域和测试域之间的数据特征/分布存在差异)或数据集偏差,这样的直接迁移可能执行得不好。
[0004]有人可能会说,预先训练的源模型可以在目标域中进行微调。然而,微调仍然需要大量标记的训练数据,而这些数据在许多应用中可能不可用。例如,在细粒度识别中,只有专家才能提供可靠的标记数据;在语义分割中,在Cityscapes数据集中标记每个图像大约需要90分钟;在自动驾驶中,使用不同传感器(如3D LiDAR点云)获得的大量交通数据很难标记;在情感图像内容分析中,感知情绪是主观的和个性化的。由于无需对目标样本进行注释,无监督域自适应(UDA)受到了广泛的关注,它允许我们学习如何利用未标记的目标样本,使训练在源上的模型适应目标。为此本专利技术提出基于CNN和Transformer结合的Conformer框架的无监督域适应方法,充分利用Conformer耦合局部特征细节和全局表征语义的优良特性,进一步提高UDA精度。

技术实现思路

[0005]针对现有技术的不足,本专利技术的目的在于提供一种提升基于对抗的无监督域适应效果的的迁移学习方法,以解决上述
技术介绍
中提出的域适应问题。
[0006]本专利技术的目的可以通过以下技术方案实现:
[0007]一种提升基于对抗的无监督域适应效果的的迁移学习方法,所述方法包括:
[0008]步骤1:先对源域和目标域的数据进行预处理,包括图像尺寸裁剪,数据增广,特征
归一化;
[0009]步骤2:构造训练数据集及测试数据集;
[0010]步骤3:搭建CNN与Transformer耦合的双分支并行混合模型作为主干网络(包含特征特区器G和分类器F)及域判别器D,选择损失函数;
[0011]步骤4:将步骤2得到的来自源域与目标域的图像按批次输入网络两个分支进行对抗训练直至训练完成;
[0012]步骤5:将测试集上的图片经过训练好的模型,得到模型预测结果并报告分类精度。
[0013]优选地,所述步骤3中的并行混合模型,称为Conformer。为了利用局部特征和全局表示,在该模型中,将来自Transformer分支的全局表征连续馈送到特征图,以增强CNN分支的全局感知能力。类似地,来自CNN分支的局部特征被逐步反馈到块嵌入,以丰富Transformer分支的局部细节。这种过程构成了互动。
[0014]优选地,所述模型由一个主干模块、双分支、桥接双分支的FCU和用于双分支的两个分类器(一个fc层)组成。主干模块是一个步长为2的7
×
7卷积,然后是步长2的3
×
3最大池化,用于提取初始局部特征(例如,边缘和纹理信息),然后将其馈送到双分支。CNN分支和变换器分支分别由N个(例如,12个)重复CNN和Transformer块组成。这样的并行结构意味着CNN和transformer分支可以分别最大限度地保留局部特征和全局表示。FCU作为桥接模块,用于将CNN分支中的局部特征与Transformer分支中的全局表示融合。FCU从第二个块应用,因为两个分支的初始化特征相同。沿着分支,FCU以交互方式逐步融合特征图和块嵌入。最后,对于CNN分支,所有特征都被1
×
1平均池化并馈送到一个分类器。对于transformer分支,类标记被取出并馈送到另一个分类器。训练期间,使用两个交叉熵损失来分别监督这两个分类器。根据经验,损失函数设定为相同。在推理过程中,两个分类器的输出被简单地概括为预测结果。
[0015]优选地,所述CNN分支采用特征金字塔结构,其中特征图的分辨率随着网络深度而降低,而通道数则增加。整个分支分为4个阶段,每个阶段由多个卷积块组成,每个卷积块包含nc个瓶颈。根据ResNet中的定义,瓶颈包含1
×
1下投影卷积、3
×
3空间卷积、1
×
1上投影卷积以及瓶颈输入和输出之间的残差连接。在实验中,在第一个卷积块中将nc设置为1,并在随后的N

1个卷积块中满足≥2。
[0016]优选地,遵循ViT,所述Transformer分支包含N个重复的Transformer块。如图3所示,每个Transformer块包括一个多头注意力模块和一个MLP块(包括一个上投影fc层和一个下投影fc层)。在自注意力层和MLP块中的剩余连接之间应用层归一化。对于标记化,我们通过线性投影层将由stem模块生成的特征图压缩为14
×
14个无重叠的块嵌入,该线性投影层是步长为4的4
×
4卷积。然后将类标记伪装为块嵌入进行分类。考虑到CNN分支(3
×
3卷积)编码局部特征和空间位置信息,不再需要位置嵌入。这有助于提高下游视觉任务的图像分辨率。
[0017]优选地,所述FCU以交互方式将局部特征与全局表示连续耦合。CNN和transformer的特征维度是不一致的,CNN特征图的维度为C
×
H
×
W(C、H、W分别为通道、高度和宽度),而块嵌入的形状为(K+1)
×
E,其中K、1和E分别表示图像块的数量、类标记和嵌入维度。当馈送到Transformer分支时,特征图首先需要通过1
×
1卷积,以对齐块嵌入的通道数。然后使用
下采样模块完成空间维度对齐。最后,特征图添加到了块嵌入。当从Transformer分支反馈到CNN分支时,需要对块嵌入进行上采样以对齐空间尺度。然后通过1
×
1卷积将通道维度与CNN特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提升基于对抗的无监督域适应效果的迁移学习方法,其特征在于,所述方法包括以下步骤:步骤1:先对源域和目标域的数据进行预处理,包括图像尺寸裁剪,数据增广,特征归一化;步骤2:构造训练数据集及测试数据集;步骤3:搭建CNN与Transformer耦合的双分支并行混合模型作为主干网络(包含特征特区器G和分类器F)及域判别器D,选择损失函数;步骤4:将步骤2得到的来自源域与目标域的图像按批次输入网络两个分支进行对抗训练直至训练完成;步骤5:将测试集上的图片经过训练好的模型,得到模型预测结果并报告分类精度。2.根据权利要求1所述的一种提升基于对抗的无监督域适应效果的迁移学习方法,其特征在于,所述步骤3中的并行混合模型,称为Conformer。为了利用局部特征和全局表示,在该模型中,将来自Transformer分支的全局表征连续馈送到特征图,以增强CNN分支的全局感知能力。类似地,来自CNN分支的局部特征被逐步反馈到块嵌入,以丰富Transformer分支的局部细节。这种过程构成了互动。3.根据权利要求2所述的一种提升基于对抗的无监督域适应效果的迁移学习方法,其特征在于,所述模型由一个主干模块、双分支、桥接双分支的FCU和用于双分支的两个分类器(一个fc层)组成。主干模块是一个步长为2的7
×
7卷积,然后是步长2的3
×
3最大池化,用于提取初始局部特征(例如,边缘和纹理信息),然后将其馈送到双分支。CNN分支和变换器分支分别由N个(例如,12个)重复CNN和Transformer块组成。这样的并行结构意味着CNN和transformer分支可以分别最大限度地保留局部特征和全局表示。FCU作为桥接模块,用于将CNN分支中的局部特征与Transformer分支中的全局表示融合。FCU从第二个块应用,因为两个分支的初始化特征相同。沿着分支,FCU以交互方式逐步融合特征图和块嵌入。最后,对于CNN分支,所有特征都被1
×
1平均池化并馈送到一个分类器。对于transformer分支,类标记被取出并馈送到另一个分类器。训练期间,使用两个交叉熵损失来分别监督这两个分类器。根据经验,损失函数设定为相同。在推理过程中,两个分类器的输出被简单地概括为预测结果。4.根据权利要求3所述的一种提升基于对抗的无监督域适应效果的迁移学习方法,其特征在于,所述CNN分支采用特征金字塔结构,其中特征图的分辨率随着网络深度而降低,而通道数则增加。整个分支分为4个阶段,每个阶段由多个卷积块组成,每个卷积块包含nc个瓶颈。根据ResNet中的定义,瓶颈包含1
×
1下投影卷积、3
×
3空间卷积、1
×
1上投影卷积以及瓶颈输入...

【专利技术属性】
技术研发人员:林玉娥刘二虎梁兴柱方贤进
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1