一种基于主动学习的迁移学习算法制造技术

技术编号:24252334 阅读:49 留言:0更新日期:2020-05-22 23:58
本发明专利技术公开的一种基于主动学习的迁移学习算法,属于机器学习领域。对于一般的无监督的迁移学习算法,目前有大量研究,但是我们在此基础上,研究了一个能够在较小的样本标注代价下来获得目标领域算法性能的提升。本发明专利技术的主动迁移学习算法在进行无监督领域自适应的过程后基于主动采样的方法去访问一批数据去微调更新网络参数,从而使得提取的特征既具有很好的迁移能力又具有不错的判别能力。在本发明专利技术中,主动采样的策略不仅有基于传统的信息熵方法,还提出了在迁移学习背景下的特征性之一评价指标。

A transfer learning algorithm based on active learning

【技术实现步骤摘要】
一种基于主动学习的迁移学习算法
本专利技术涉及机器学习
,具体是基于主动查询的迁移学习算法。
技术介绍
近几年来,深度学习获得了巨大的成功,如计算机视觉、语音识别、自然语言处理等。在多个标准数据集上都取得了最优的结果。但是高准确率的背后需要的是大量的优质的标注数据,现实是数据的标注成本是极其昂贵的,这对于一些小型公司乃至一些大公司都是无法承受的。而且真正的智能技术要求着能够举一反三,这意味着学习到的模型能够在类似场景中进行迁移,而不是针对每个任务都从头进行训练。基于以上的需求,迁移学习获得了越来越多的关注。迁移学习技术的关键在于度量源域和目标域的相似性,常见的主要有四种。第一种是采用MMD的方法,MMD计算了在一个再生核希尔伯特空间中两个数据域经过映射后均值的差异[1][2]。第二种间接性地避免直接计算相似性,采用了基于变分自编码器的框架来优化重建误差的损失[3]。第三种是当下非常流行的基于对抗训练的迁移学习方法,这种方法在网络架构加入了对抗的模块,鉴别器来区分经过特征提取后的目标域和源域数据的特征究竟是来自哪个数据域,如果鉴别器本文档来自技高网...

【技术保护点】
1.一种基于主动学习的迁移学习算法,其特征在于,包括以下步骤:/n步骤1)确定算法输入变量,包括待训练的源域和目标域数据集,当前迭代次数t,当前模型Mt,选出来标记的数据集Q;/n步骤2)用无监督的领域自适应算法对源域和目标域数据集进行训练,得到一个初始化的模型MO;/n步骤3)对于目标域数据集X中的每一个样本点x,计算其经过卷积层后提取的特征x′=conv(x);/n步骤4)计算特征辨别性指标

【技术特征摘要】
1.一种基于主动学习的迁移学习算法,其特征在于,包括以下步骤:
步骤1)确定算法输入变量,包括待训练的源域和目标域数据集,当前迭代次数t,当前模型Mt,选出来标记的数据集Q;
步骤2)用无监督的领域自适应算法对源域和目标域数据集进行训练,得到一个初始化的模型MO;
步骤3)对于目标域数据集X中的每一个样本点x,计算其经过卷积层后提取的特征x′=conv(x);
步骤4)计算特征辨别性指标
步骤5)计算样本x的不确定性指标,这里用信息熵来评
步骤6)计算样本x的综合评价指标,S(x)=λ*characteristics(x)+(1-λ)*uncertainty(x);
步骤7)查看是否已经将目标域数据集X遍历完,如果没有继续步骤3),如果遍历完了X,继续步骤8);
步骤8)根据S(x)的值,从中选取前b个最大的值,选出X中对应的b个样本,请专家进行打标签,并将这b个标记好的样本加入数据集Q中,同时从目标域数据集中删除这b个数据样本X=X\Q;
步骤9)用Q中的数据对当前的模型Mt进行微调,t=t+1;
步骤10)查询迭代次数t,如果已经未超过100,则继续步骤3),否则算法终止。


2.根据权利要求1所述的基于主动学习的迁移学习算法,其特征在于:所述步骤1和骤2)中,这两个步骤都是在做准备工作。首先要用源域数据集和目标域数据集进行无监督迁移学习的训练,这里可用各种算法,我们选取了近年来较为热门的DANN算法,这是基于对抗训练的算法。基于对抗训练的算法中,对抗模块能够判断学习到的特征的迁移能力。


3.根据权利要求1所述...

【专利技术属性】
技术研发人员:关东海张琦
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1