当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于跨类别迁移主动学习的图像分类方法技术

技术编号:13370733 阅读:34 留言:0更新日期:2016-07-19 18:44
本发明专利技术公开了一种基于跨类别迁移主动学习的图像分类方法,包括如下步骤:对辅助类别数据与目标类别数据中的图像进行向量化特征表示;构建辅助类别属性表示和目标类别属性表示;构造目标函数;优化求解目标函数,得到生成函数;利用生成函数及目标类别属性表示得到分类模型;利用分类模型计算目标类别数据中所有无标注图像的不确定性;选取不确定性最大的无标注图像进行标注;对目标类别数据中图像的权重进行更新,重新构造目标函数。本发明专利技术能够有效地在目标类别数据中挑选最有信息量的图像样本进行标注,有助于在目标类别只有极少有标注数据的情况下训练出准确的分类模型,降低标注成本。

【技术实现步骤摘要】

本专利技术涉及图像分类领域,尤其涉及一种基于跨类别迁移主动学习的图像分类方法
技术介绍
随着互联网上图像数据的大规模增长,图像分类技术受到广泛的关注和应用。现有的图像分类技术主要通过有监督学习的方法训练出目标类别的分类模型,即需要为各个分类模型收集足量的、高质量的有标注数据进行模型训练。这种方式适用与简单的分类任务和类别比较少的场景。但是随着分类任务的复杂化,比如类别数量多、类别专业化、特殊化等,为目标类别收集足量的有标注数据的成本大大上升。所以,如何尽可能地节省标注成本,用尽可能少的有标注数据来训练出准确的分类模型,在学术界和工业界都是一个重要的研究课题。为了减少数据的标注成本,有两种常用的解决方案。第一种是主动学习(ActiveLearning)。主动学习的基本思想是:数据具有不同的信息量,如果学习算法能够挑选出那些最具信息量的数据来进行标注,那么即使只有很少的数据被标注了,这些数据所拥有的信息也能保证学习出的分类模型足够精确。另一种是迁移学习(TransferLearning)。迁移学习的基本思想是:对于目标领域和任务,往往可以找到一些和它不同但是相关的辅助领域和任务,在辅助领域中拥有足量的有标注数据。即使只在目标领域中只有少量的数据,也能通过从辅助领域中迁移足量的知识来学习出准确的分类模型。当然,研究者们两种方案结合在一起,即迁移主动学习(TransferActiveLearning),通过同时从辅助领域迁移知识和选择最优信息量的数据进行标注,也取得了一些不错的成果。但是,现有的迁移主动学习方法都有一个非常强的假设:目标领域和辅助领域所具有的数据的类别是完全一致的,只是数据在这些类别上的概率分布有差异。显然,这个假设在实际应用中太过苛刻了。对于目标领域,如果它包含大量的类别,或者所包含的类别的特殊性很强,要构建出一个类别与之完全相同的辅助领域也是一个成本很高的过程,这样违背了迁移主动学习的初衷。从目前的研究来看,现有的迁移主动学习方法都只能处理目标领域和辅助领域的类别完全一模一样的情况,针对二者完全不同的解决方案还没有,但后者却是实际应用中更常见的情况。所以,如何在目标领域与辅助领域的类别相关但是不同的情况下,有效地从辅助领域迁移有价值的信息、同时在目标领域选择最有信息量的样本进行标注,以尽可能在极低的标注成本下训练足够准确的分类模型,仍需要进一步的研究。
技术实现思路
本专利技术旨在提供一种基于跨类别迁移主动学习的图像分类方法,以解决目前在目标领域与辅助领域的类别相关但是不同的情况下,有效地从辅助领域迁移有价值的信息、同时在目标领域选择最有信息量的样本进行标注,以尽可能在极低的标注成本下训练足够准确的分类模型的问题。本专利技术的专利技术目的是通过下述技术方案来实现的:一种基于跨类别迁移主动学习的图像分类方法,包括如下步骤:步骤S1:利用特征抽取工具分别对辅助类别数据中的图像与目标类别数据中的有标注图像和无标注图像进行向量化特征表示,得到辅助类别图像特征向量和目标类别图像特征向量;步骤S2:分别针对辅助类别数据和目标类别数据构建出辅助类别属性表示和目标类别属性表示;步骤S3:利用步骤S1中得到的辅助类别图像特征向量和目标类别图像特征向量,以及步骤S2中得到的辅助类别属性表示和目标类别属性表示构造目标函数;步骤S4:利用迭代式的优化方法求解上一步得到的目标函数,并得到生成函数;步骤S5:利用上一步得到的生成函数以及步骤S2中得到的目标类别属性表示,直接产生各个目标类别对应的分类模型;步骤S6:判断步骤S5中得到的分类模型的准确性是否符合要求,如果符合结束本次学习,如果不符合转下一步;步骤S7:利用步骤S5中得到的分类模型,计算目标类别数据中所有无标注图像的不确定性,并按不确定性从大到小进行排序;步骤S8:选取上一步中不确定性最大的无标注图像进行标注,将无标注图像转化为有标注图像;步骤S9:对目标类别数据中图像的权重进行更新;然后转步骤S3。进一步的,所述步骤S2:分别针对辅助类别数据和目标类别数据构建出辅助类别属性表示和目标类别属性表示中,利用维基百科上学习出的单词表示作为类别属性表示。进一步的,所述步骤S3中构造出的目标函数为:minV,Yt||XsVAs′-Ys||F2+α||X^tVAt′-Y^t||F2+β||VA′||F2,]]>其中,α和β是控制各部分在目标函数中权重的超参数;||M||F2=Σijmij2]]>表示一个矩阵所有元素的平方和;X^t=ΘtXt,Y^t=ΘtYt]]>为加权的数据,Θt=diag(θ1,θ2,...,θnt)]]>表示目标类别数据中各个图像的权重;为步骤S1中所述的辅助类别图像特征向量构成的矩阵;为步骤S1中所述的目标类别图像特征向量构成的矩阵;为辅助类别数据中每个图像所对应的类别向量构成的矩阵;为辅助类别数据中每个辅助类别属性向量构成的矩阵,所述辅助类别属性向量为所述步骤S2中辅助类别属性表示的一种表示方法;为目标类别数据中每个目标类别属性向量构成的矩阵,所述目标类别属性向量为所述步骤S2中目标类别属性表示的一种表示方法;为待预测的目标类别数据中每个图像所对应的类别向量构成的矩阵;V为待预测的生成函数的参数;为目标类别数据中无标注图像所对应的类别向量;为目标类别数据中的有标图像集,为目标类别数据中无标图像集。进一步的,所述步骤S4:利用迭代式的优化方法求解上一步得到的目标函数,并得到生成函数,具体包括如下步骤:(1)优化Yt:将V固定,所述目标函数对于Yt为行解耦,对矩阵式目标函数的每一行进行单独处理,目标函数对于目标类别数据中无标注图像对应的类别向量的部分如下:minyjt||xjtVAt′-yjt||F2,s.t.||yjt||0=yjt1k′=1]]>优化Yt的公式如下:yjct=1,ifc=argmaxcxjtVact′0,otherwise]]>(2)优化V:在Yt固定的条件下,进行如下定义:X=[Xs;αX^t],Y=Ys0ns×ct0nt×csαY^t,A=[As;At]]]>目标函数进行如下近似:上式对于V的导数如下:再令上述导数为0,可以得本文档来自技高网
...

【技术保护点】
一种基于跨类别迁移主动学习的图像分类方法,其特征在于,包括如下步骤:步骤S1:利用特征抽取工具分别对辅助类别数据中的图像与目标类别数据中的有标注图像和无标注图像进行向量化特征表示,得到辅助类别图像特征向量和目标类别图像特征向量;步骤S2:分别针对辅助类别数据和目标类别数据构建出辅助类别属性表示和目标类别属性表示;步骤S3:利用步骤S1中得到的辅助类别图像特征向量和目标类别图像特征向量,以及步骤S2中得到的辅助类别属性表示和目标类别属性表示构造目标函数;步骤S4:利用迭代式的优化方法求解上一步得到的目标函数,并得到生成函数;步骤S5:利用上一步得到的生成函数以及步骤S2中得到的目标类别属性表示,直接产生各个目标类别对应的分类模型;步骤S6:判断步骤S5中得到的分类模型的准确性是否符合要求,如果符合结束本次学习,如果不符合转下一步;步骤S7:利用步骤S5中得到的分类模型,计算目标类别数据中所有无标注图像的不确定性,并按不确定性从大到小进行排序;步骤S8:选取上一步中不确定性最大的无标注图像进行标注,将无标注图像转化为有标注图像;步骤S9:对目标类别数据中图像的权重进行更新;然后转步骤S3。

【技术特征摘要】
1.一种基于跨类别迁移主动学习的图像分类方法,其特征在于,包括如下步骤:
步骤S1:利用特征抽取工具分别对辅助类别数据中的图像与目标类别数据中的有标注
图像和无标注图像进行向量化特征表示,得到辅助类别图像特征向量和目标类别图像特征
向量;
步骤S2:分别针对辅助类别数据和目标类别数据构建出辅助类别属性表示和目标类别
属性表示;
步骤S3:利用步骤S1中得到的辅助类别图像特征向量和目标类别图像特征向量,以及
步骤S2中得到的辅助类别属性表示和目标类别属性表示构造目标函数;
步骤S4:利用迭代式的优化方法求解上一步得到的目标函数,并得到生成函数;
步骤S5:利用上一步得到的生成函数以及步骤S2中得到的目标类别属性表示,直接产
生各个目标类别对应的分类模型;
步骤S6:判断步骤S5中得到的分类模型的准确性是否符合要求,如果符合结束本次学
习,如果不符合转下一步;
步骤S7:利用步骤S5中得到的分类模型,计算目标类别数据中所有无标注图像的不确
定性,并按不确定性从大到小进行排序;
步骤S8:选取上一步中不确定性最大的无标注图像进行标注,将无标注图像转化为有
标注图像;
步骤S9:对目标类别数据中图像的权重进行更新;然后转步骤S3。
2.如权利要求1中所述的一种基于跨类别迁移主动学习的图像分类方法,其特征在于,
所述步骤S2:分别针对辅助类别数据和目标类别数据构建出辅助类别属性表示和目标类别
属性表示中,利用维基百科上学习出的单词表示作为类别属性表示。
3.如权利要求1中所述的一种基于跨类别迁移主动学习的图像分类方法,其特征在于,
所述步骤S3中构造出的目标函数为:
minV,Yt||XsVAs′-Ys||F2+α||X^tVAt′-Y^t||F2+β||VA′||F2,]]>其中,α和β是控制各部分在目标函数中权重的超参数;
表示一个矩阵所有元素的平方和;
X^t=ΘtXt,Y^t=ΘtYt]]>为加权的数据,Θt=diag(θ1,θ2,...,θnt)]]>表示目标类别数据中各个
图像的权重;
为步骤S1中所述的辅助类别图像特征向量构成的矩阵;
为步骤S1中所述的目标类别图像特征向量构成的矩阵;
为辅助类别数据中每个图像所对应的类别向量构成的矩阵;
为辅助类别数据中每个辅助类别属性向量构成的矩阵,所述辅助

\t类别属性向量为所述步骤S2中辅助类别属性表示的一种表示方法;
为目标类别数据中每个目标类别属性向量构成的矩阵,所述目标

【专利技术属性】
技术研发人员:丁贵广郭雨晨李长青孙鹏
申请(专利权)人:清华大学北京恒冠网络数据处理有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1