【技术实现步骤摘要】
基于对比学习与不变因果性的可泛化图像分类方法及装置
[0001]本专利技术涉及计算机视觉处理领域,尤其涉及一种基于对比学习与不变因果性指引的可泛化图像分类方法。
技术介绍
[0002]领域泛化(Domain Generalization)是指在一个新的领域中,能够保持模型在已有领域中的学习能力和性能的能力。在现实生活中,本专利技术面对的问题往往来自不同的领域。如果一个模型只能在特定领域的数据上表现良好,那么这个模型的实用性就受到了限制。领域泛化能够让模型在不同的领域数据上都表现良好,从而提高了模型的适用性。在数据方面,训练一个模型需要大量的数据,而且这些数据需要来自于不同的领域。如果一个模型只能在特定领域的数据上表现良好,那么为了训练这个模型,本专利技术需要收集大量来自于这个领域的数据。领域泛化能够让模型在不同领域的数据上都表现良好,从而减少了数据收集的成本。在模型部署方面,如果一个模型只能在特定领域的数据上表现良好,那么每次遇到新的问题都需要重新训练一个新的模型。领域泛化能够让模型在不同领域的数据上都表现良好,从而加快了模型的部署速度。对人工智能而言,领域泛化是人工智能领域的一个重要研究方向。通过研究领域泛化,本专利技术能够更好地了解人工智能的本质,并且能够提出更加先进的算法和模型。
[0003]在图像处理任务中,领域泛化是一个非常重要的问题,因为实际应用中,模型会受到如下几种挑战:(1)域偏移:不同领域中的数据分布存在差异,导致训练的模型难以泛化到其他领域;(2)样本稀缺:对于某些领域,由于种种原因(例如 ...
【技术保护点】
【技术特征摘要】
1.一种基于对比学习与不变因果性的可泛化图像分类方法,其特征在于,包括如下步骤:S1:从多领域图像数据集中选择一个源域,并从该源域的图像数据集中采集一批包含不同图像类别的样本,并对所有样本进行数据增强,形成用于训练的批量数据;所述多领域图像数据集中包含从多个环境中采集的图像,且来源于相同环境的图像划分在同一个源域中;S2:将S1中采集的批量数据同时输入第一编码器F和第二编码器F
′
进行特征提取,并根据存储有先前已提取特征的全局特征队列,将全局特征队列中与输入样本属于相同类别的特征作为正样本,利用对比学习来学习输入样本和对应正样本之间的对比相似度,计算对比相似度损失;S3:以S2中计算得到的对比相似度来量化图像特征之间的因果关系,从而使用前门调整公式基于对比相似度来量化图像到特征再到标签的因果效应,并得到基于因果效应预测的标签,进而计算前门调整约束损失,用于指导第一编码器学习提取对正确标签因果效应最大的特征;S4:将第一编码器输出的特征输入分类器,根据该特征预测图像的类别标签,并计算分类损失;S5:以所述对比相似度损失、前门调整约束损失和分类损失的加权和作为总损失函数,对第一编码器F和分类器进行参数更新;并在完成一个轮次的训练之后,利用第二编码器F
′
新提取的特征对全局特征队列以先入先出的方式进行更新;同时利用第一编码器F的更新后参数对第二编码器F
′
的参数进行动量更新;S6:不断迭代执行S1~S5,选取不同的源域抽取样本进行训练;训练完毕之后,将待预测图像样本输入由第二编码器F
′
和分类器组成的分类模型预测分类标签,完成端到端的图像分类任务。2.如权利要求1所述的基于对比学习与不变因果性的可泛化图像分类方法,其特征在于,所述S1中,所述多领域图像数据集由来源于K个不同来源的图像样本构建而成,每个来源定义为源域D
k
,在每个源域中均有C个不同的图像类别。3.如权利要求1所述的基于对比学习与不变因果性的可泛化图像分类方法,其特征在于,所述S1中,对一个采样批次的所有样本进行数据增强形成批量数据的方法如下:S101:将从一个源域中随机抽取的N个图像样本组成一组采样图像集合;S102:对每个采样图像进行随机中心裁剪,得到尺寸一致的裁剪后图像;S103:对每张裁剪后图像进行随机水平翻转,统一图像的各项属性数值,再进行随机灰度化,最后将图像转换为张量格式并进行正则化处理;S104:将每张正则化处理后的图像x
i
的类别标签重新编码为索引值y
i
,从而构建成用于进行训练的批量数据B,批量数据B中每个训练样本表示为二元组b
i
=(x
i
,y
i
)。4.如权利要求3所述的基于对比学习与不变因果性的可泛化图像分类方法,其特征在于,所述S2的具体步骤包括:S201:从内存中获取当前最新的全局特征队列Q;所述全局特征队列Q为一个长度为L=K
×
N
×
4,维度为d的队列,队列中按序存储有在当前时刻前已经提取过的特征;全局特征队列Q在第一轮训练开始之前使用标准正态分布进行随机初始化;
S202:将批量数据B同时输入结构相同的第一编码器F和第二编码器F
′
中进行提取特征,每个图像x
i
由第一编码器F和第二编码器F
′
分别提取得到特征z和z
′
,由所有的特征z和所有的z
′
分别构成特征集合Z和Z
′
;S203:根据批量数据B中每个图像x
i
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。