一种基于最优传输的无源域合成-现实物体自适应识别方法技术

技术编号:39497381 阅读:9 留言:0更新日期:2023-11-24 11:26
本发明专利技术公开了一种基于最优传输的无源域合成

【技术实现步骤摘要】
一种基于最优传输的无源域合成

现实物体自适应识别方法


[0001]本专利技术涉及一种基于最优传输的无源域合成

现实物体自适应识别方法,属于计算机视觉



技术介绍

[0002]近年来深度学习取得了巨大进步,但是过度依赖大量数据,模型的迁移效果却受限于训练数据的概率分布,难以实际应用到不同天气条件

光照

场景下的图像识别任务中

为了减少对真实世界物体图像的收集成本和标注成本,常常借助合成图像进行辅助

合成图像具有数量大

成本低

无需标注的优点,在合成图像上进行对模型的预先训练,再通过良好的域适应方法将该模型应用在现实世界物体识别中,可以提高模型的重复利用率和降低模型从头训练的成本

[0003]然而,合成物体图像与现实物体图像有较大的差距,即源域和目标域的数据分布不同,存在域差异,此为挑战之一;在实际应用中因为数据隐私

数据产权等原因无法获取大量的合成物体图像,只能获得由合成物体图像训练而来的源域模型,此为挑战之二;为了能够同时处理图像的数据分布不同和无源域数据这两者苛刻的挑战,提出无源域适应的主要思想:源域数据训练获得模型作为源域模型,目标域数据与源域数据分布相似但不同,将目标域数据在源模型上进行训练,以获得适应目标域数据的目标模型

[0004]目前,无源域适应方法主要可以分为基于域图像生成的适应方法和基于自监督的适应方法

基于域图像生成的适应方法为了补偿无法访问的源域,旨在用生成模型合成代理源域数据,然后进行常规的无监督域自适应,通过标准的对抗性学习来学习跨两个领域不变的特征模式以进一步适应

但是此类方法引入了额外的框架和可学习的参数,这样会花费更多的计算资源

[0005]目前,基于自监督的适应方法需要通过挖掘目标域中的隐藏结构

生成伪标签

模型微调等步骤
。Xia(Xia H,Zhao H,Ding Z.Adaptive adversarial network for source

free domain adaptation[C]//Proceedings of the IEEE/CVF international conference on computer vision.2021:9010

9019)
等人首先将目标实例自适应地划分为源相似和源不相似的集合,然后设计一个类感知对比模块用于交叉集分布对齐,该想法是加强来自同一类别的目标实例的紧凑性并减少跨域差异,从而促进从源模型到目标数据的有效知识转移
。Qiu(Source

free domain adaptation via avatar prototype generation and adaptation[J].arXiv preprint arXiv:2106.15326,2021)
等人利用学生教师模型为目标数据生成伪标签,并通过对比学习将未标记目标样本导出的特征与具有相同类别标签的源原型对齐,实现了跨域原型自适应

以上两种经典方法都存在生成的伪标签质量不高的问题,而由于合成图像和现实图像之间存在巨大的域偏移,极易出现大量的低质量伪标签,而低质量的伪标签可能回出现性能的大幅度下降

而后者的方法运用学生教师模型一定程度上可以提高伪标签的鲁棒性,但是不但引入了新的可学习框架,而且教师和学生的模型参数紧密耦合,这同样会导致性能进入瓶颈


技术实现思路

[0006]本专利技术目的在于针对上述现有技术的不足,提出了一种基于最优传输的无源域合成

现实物体自适应识别方法,该方法很好地解决了目前从合成图像到现实世界图像物体识别的过程中,源域数据无法在域适应框架训练时获取

现实世界物体伪标签质量差导致精度差的问题

[0007]本专利技术的技术方案是:
[0008]一种基于最优传输的无源域合成

现实物体自适应识别方法,该方法包括以下步骤:
[0009]步骤1:数据集获取:下载
VISDA

C
数据集,并对其进行划分为训练集

测试集以及数据增广,训练集和测试集的划分比例为
6:1

[0010]步骤2:构建神经网络:以残差网络的网络结构为基础,使用三个阶段特征分别进行不同层次的最优传输计算,具体的:选取分支进行权重向量的提取和图像特征的提取,再利用
bottleneck
层更有效地提取特征,最终通过
FC
层进行预测,构建新的残差网络;;
[0011]步骤3:神经网络训练:将增广划分后的
VISDA

C
数据集送入步骤2构建的神经网络进行训练,直至网络收敛,得到训练好的神经网络和权重文件;
[0012]步骤4:基于所述训练好的神经网络和权重文件对图像进行检测

[0013]作为优选,步骤2‑1:残差网络中,获取各层次网络的权重数据和图像特征,将所述权重数据作为最优传输中的被映射向量,将所述图像特征作为最优传输中的映射向量,对二者进行最优传输计算;
[0014]步骤2‑2:对最优传输计算结果进行离散分类,获得每个样本对应类别的
one

hot
编码,作为每个样本的最优传输类;
[0015]步骤2‑3:对原本的基于交叉熵的域适应损失进行分解,拆解成浅层

中层

高层三个层次的多分类损失,以最优传输类作为目标值,以网络输出作为计算值,依据传输可信度计算损失的分布

[0016]其中,传输可信度指的是最优传输中的传输代价;计算得到的损失分布指的是不同的样本依据传输可信度来计算损失,计算的源为样本特征分布,计算的目标为依据传输可信度得到的最大可能类别信息

[0017]作为优选,步骤2‑1中,不同层级特征与模型权重之间的最优传输结果计算表示为:
[0018][0019]其中,
f
分别表示源域网络权重作为的特征和目标域图像输出的特征;利用
C
来计算两者之间的相似程度,表示为:
[0020][0021][0022]其中,
γ
代表从源域到目标域之间的传输代价,
<
·
,
·
>F
代表斐波那契内积;1为维度向量,
μ
代表经验分布,
C
A
如上式所说表示相似程度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于最优传输的无源域合成

现实物体自适应识别方法,其特征在于,包括以下步骤:步骤1:获取数据集:下载
VISDA

C
数据集,将其划分为训练集

测试集,并进行数据增广;步骤2:构建神经网络:以残差网络的网络结构作为骨干网络,将目标卷积神经网络根据其深度和原始结构划分为浅层

中层

高层三个网络,分别输出图像的特征嵌入向量,使用三个阶段特征分别进行不同层次的最优传输计算,具体的:先选取浅层

中层

高层三个分支进行权重向量的提取和图像特征的提取,然后利用
bottleneck
层提取特征,最后通过
FC
层进行预测,输出
B*N
的嵌入向量,其中
B

batch_size
个数,
N
为目标分类数;步骤3:神经网络训练:将增广划分后的
VISDA

C
数据集送入步骤2构建的神经网络进行训练,直至网络收敛,得到训练好的神经网络和权重文件;步骤4:基于步骤3训练好的神经网络和权重文件对测试集进行检测
。2.
根据权利要求1所述的一种基于最优传输的无源域合成

现实物体自适应识别方法,其特征在于,所述步骤2包括以下步骤:步骤2‑1:残差网络中,获取各层次网络的权重数据和图像特征,将所述权重数据作为最优传输中的被映射向量,将所述图像特征作为最优传输中的映射向量,对二者进行最优传输计算;步骤2‑2:对最优传输计算结果进行离散分类,获得每个样本对应类别的
one

hot
编码即伪标签,作为每个样本的最优传输类;步骤2‑3:对原本的基于交叉熵的域适应损失进行分解,拆解成浅层

中层

高层三个层次的多分类损失,以最优传输类作为目标值,以网络输出作为计算值,依据传输可信度计算损失的分布
。3.
根据权利要求2所述的一种基于最优传输的无源域合成

现实物体自适应识别方法,其特征在于,所述步骤2‑1中,不同层级特征与模型权重之间的最优传输结果计算表示为:其中,
f
分别表示源域网络权重作为的特征和目标域图像输出的特征;利用
C
来计算两者之间的相似程度,表示为:来计算两者之间的相似程度,表示为:其中,
γ
代表从源域到目标域之间的传输代价,
<
·
,
·
>F
代表斐波那契内积;1为维度向...

【专利技术属性】
技术研发人员:孙涵刘佳美贾亦真
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1