System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术设计了一种基于目标域样本划分的渐进式无源域适应力法,属于机器学习领域。
技术介绍
1、随着数据量的不断增长和计算能力的不断增强,以机器学习为代表的人工智能得到长足发展,并逐渐应用到现实生活中。传统的机器学习假设数据是独立同分布的,即训练样本和测试样本来自相同的数据分布。但在现实环境中,由于采集设备、光照、视角等因素的差异,独立同分布的假设很难成立,严重影响机器学习模型的性能,阻碍了其在真实场景中的应用。
2、迁移学习的基本思想是将从已标注数据中学习到的知识迁移到未标注数据上的目标任务中,减轻对目标域数据标注的依赖,同时考虑环境的变化。无监督域适应是迁移学习的一个实例,将知识从有标注的源域迁移到无标注的目标域,其中源域和目标域的数据分布不一致,反映了现实情况。
3、在医疗、金融等重视隐私保护的领域,源域数据往往难以获取,只能将源域预训练模型适配到无标注的目标域,这种问题设定下的无监督域适配被称为无源域适配。现有主流无源域适应方法是基于伪标签的方法,一方面提升伪标签的准确率,另一方面利用目标域数据优化特征表达,但效果仍有待提升。
4、因为深度学习模型会先拟合干净数据、学习简单模式,然后才会拟合噪声数据和学习复杂模式,所以本专利技术提出的方法根据伪标签的可靠程度将目标域样本分成易适配的样本和难适配的样本。模型训练过程由交替执行的阶段一和阶段二构成:阶段一主要包含加权的自训练和图对比学习,阶段二分别使用一致性损失和实例对比学习在易适配和难适配的目标样本上训练模型。实验表明本力法取得了很好的效
技术实现思路
1、在不访问源域数据的前提下,将源域预训练模型适配到目标域并取得较好的效果,本专利技术提出了基于目标域样本划分的渐进式无源域适应方法。
2、本专利技术的主要内容如下:
3、(1)获取域适应常用公开数据集,进行数据预处理。
4、(2)获取源域预训练模型,包括一个特征提取器和一个分类器。
5、(3)设计目标域样本划分策略。将特征提取器提取的图像特征输入分类器获得分类结果。根据分类置信度对目标域样本进行初次划分,得到易适应样本的候选集合,再通过计算样本的信息熵进一步选取熵值较低的样本作为目标域易适应样本,剩余的目标域样本作为难适应样本。
6、(4)进行阶段一的训练:采用聚类策略更新模型对目标样本的类别预测,获取样本的伪标签,并使用加权的损失函数减缓不可靠伪标签的作用;设计图对比学习将类别可能相同的难适应样本和易适应样本对齐,优化目标域样本的特征表达。
7、(5)进行阶段二的训练:先对易适应样本进行强、弱数据增强,并计算两种视图的一致性损失以增强模型对类别语义的理解,同时对易适应样本使用伪标签进行自训练以提高模型对易适应样本的预测自信;然后对难适应样本采用实例对比学习,将每个难适应样本的近邻样本作为该样本的正例,其余难适应样本均为负例,最大化样本和正例的相似度,最小化样本和负例之间的相似度。在阶段二中,模型进行了从易适应样本到难适应样本的渐进式学习。
8、(6)上述阶段一和阶段二交替进行,直至模型收敛。
9、(7)在所有数据集的各迁移任务上进行实验,记录目标域样本分类准确率。
10、(8)进行消融实验,验证不同模块的有效性。
11、本专利技术的有益效果是:本专利技术提出了基于目标域样本划分的渐进式无源域适应方法,将目标域样本划分为易适应样本和难适应样本,先易后难的对二者采用不同的处理策略,不仅减弱了域偏移的负面影响,还增强了模型对类别语义的理解,最终提高了目标域样本分类准确率。
本文档来自技高网...【技术保护点】
1.本专利技术涉及一种基于目标域样本划分的渐进式无源域适应方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于目标域样本划分的渐进式无源域适应方法,其特征在于,步骤(2)中的易适应样本筛选机制,根据模型的分类器预测,在每个类别选出预测概率最高的N个样本作为候选样本。计算候选样本的信息熵,并对每个类别的候选样本按照熵值由低到高进行排列,选取前M个样本作为最终的易适应样本,剩余样本作为难适应样本。
3.如权利要求1所述的基于目标域样本划分的渐进式无源域适应方法,其特征在于,步骤(3)中所述的图对比学习损失,将一个batch的样本作为图的顶点,以伪标签作为顶点的类别。如果边的两个顶点伪标签相同,且至少有一个顶点对应易适应样本,则该边的值为1,否则,值为0,由此构造样本类别关系图;相似的,构造样本特征关系图,以顶点样本的特征相似度作为边值。以样本类别关系图作为样本特征关系图的训练目标。
4.如权利要求1所述的基于目标域样本划分的渐进式无源域适应方法,其特征在于,步骤(5)中所述实例对比学习,在难适应样本的特征空间中根据样本归一化后的特征向量,通
5.如权利要求1所述的基于目标域样本划分的渐进式无源域适应方法,其特征在于,步骤(6)中将训练进程转化为两个训练阶段的交替进行,阶段一包括对目标域数据的划分,伪标签优化,自训练,和图对比学习,其作用在于将目标域的特征分布与源模型学习的源域分布对齐;第二个训练阶段包括易适应样本不同数据增强的一致性学习以及难适应样本的实例对比学习,其作用在于优化目标域样本的的特征分布,辅助阶段一训练。两个训练阶段交替进行,直至模型收敛。
...【技术特征摘要】
1.本发明涉及一种基于目标域样本划分的渐进式无源域适应方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于目标域样本划分的渐进式无源域适应方法,其特征在于,步骤(2)中的易适应样本筛选机制,根据模型的分类器预测,在每个类别选出预测概率最高的n个样本作为候选样本。计算候选样本的信息熵,并对每个类别的候选样本按照熵值由低到高进行排列,选取前m个样本作为最终的易适应样本,剩余样本作为难适应样本。
3.如权利要求1所述的基于目标域样本划分的渐进式无源域适应方法,其特征在于,步骤(3)中所述的图对比学习损失,将一个batch的样本作为图的顶点,以伪标签作为顶点的类别。如果边的两个顶点伪标签相同,且至少有一个顶点对应易适应样本,则该边的值为1,否则,值为0,由此构造样本类别关系图;相似的,构造样本特征关系图,以顶点样本的特征相似度作为边值。以样本类别关系图作为样本特征关系图的训练目标。
4.如权利要求1所述的基...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。