一种基于跨类别迁移主动学习的图像分类方法技术

技术编号：13370733 阅读：34 留言：0更新日期：2016-07-19 18:44

本发明专利技术公开了一种基于跨类别迁移主动学习的图像分类方法，包括如下步骤：对辅助类别数据与目标类别数据中的图像进行向量化特征表示；构建辅助类别属性表示和目标类别属性表示；构造目标函数；优化求解目标函数，得到生成函数；利用生成函数及目标类别属性表示得到分类模型；利用分类模型计算目标类别数据中所有无标注图像的不确定性；选取不确定性最大的无标注图像进行标注；对目标类别数据中图像的权重进行更新，重新构造目标函数。本发明专利技术能够有效地在目标类别数据中挑选最有信息量的图像样本进行标注，有助于在目标类别只有极少有标注数据的情况下训练出准确的分类模型，降低标注成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像分类领域，尤其涉及一种基于跨类别迁移主动学习的图像分类方法。
技术介绍
随着互联网上图像数据的大规模增长，图像分类技术受到广泛的关注和应用。现有的图像分类技术主要通过有监督学习的方法训练出目标类别的分类模型，即需要为各个分类模型收集足量的、高质量的有标注数据进行模型训练。这种方式适用与简单的分类任务和类别比较少的场景。但是随着分类任务的复杂化，比如类别数量多、类别专业化、特殊化等，为目标类别收集足量的有标注数据的成本大大上升。所以，如何尽可能地节省标注成本，用尽可能少的有标注数据来训练出准确的分类模型，在学术界和工业界都是一个重要的研究课题。为了减少数据的标注成本，有两种常用的解决方案。第一种是主动学习(ActiveLearning)。主动学习的基本思想是：数据具有不同的信息量，如果学习算法能够挑选出那些最具信息量的数据来进行标注，那么即使只有很少的数据被标注了，这些数据所拥有的信息也能保证学习出的分类模型足够精确。另一种是迁移学习(TransferLearning)。迁移学习的基本思想是：对于目标领域和任务，往往可以找到一些和它不同但是相关的辅助领域和任务，在辅助领域中拥有足量的有标注数据。即使只在目标领域中只有少量的数据，也能通过从辅助领域中迁移足量的知识来学习出准确的分类模型。当然，研究者们两种方案结合在一起，即迁移主动学习(TransferActiveLearning)，通过同时从辅助领域迁移知...

【技术保护点】
一种基于跨类别迁移主动学习的图像分类方法,其特征在于，包括如下步骤：步骤S1：利用特征抽取工具分别对辅助类别数据中的图像与目标类别数据中的有标注图像和无标注图像进行向量化特征表示，得到辅助类别图像特征向量和目标类别图像特征向量；步骤S2：分别针对辅助类别数据和目标类别数据构建出辅助类别属性表示和目标类别属性表示；步骤S3：利用步骤S1中得到的辅助类别图像特征向量和目标类别图像特征向量，以及步骤S2中得到的辅助类别属性表示和目标类别属性表示构造目标函数；步骤S4：利用迭代式的优化方法求解上一步得到的目标函数，并得到生成函数；步骤S5：利用上一步得到的生成函数以及步骤S2中得到的目标类别属性表示，直接产生各个目标类别对应的分类模型；步骤S6：判断步骤S5中得到的分类模型的准确性是否符合要求，如果符合结束本次学习，如果不符合转下一步；步骤S7：利用步骤S5中得到的分类模型，计算目标类别数据中所有无标注图像的不确定性，并按不确定性从大到小进行排序；步骤S8：选取上一步中不确定性最大的无标注图像进行标注，将无标注图像转化为有标注图像；步骤S9：对目标类别数据中图像的权重进行更新；然后转步骤S3。

【技术特征摘要】
1.一种基于跨类别迁移主动学习的图像分类方法,其特征在于，包括如下步骤：
步骤S1：利用特征抽取工具分别对辅助类别数据中的图像与目标类别数据中的有标注
图像和无标注图像进行向量化特征表示，得到辅助类别图像特征向量和目标类别图像特征
向量；
步骤S2：分别针对辅助类别数据和目标类别数据构建出辅助类别属性表示和目标类别
属性表示；
步骤S3：利用步骤S1中得到的辅助类别图像特征向量和目标类别图像特征向量，以及
步骤S2中得到的辅助类别属性表示和目标类别属性表示构造目标函数；
步骤S4：利用迭代式的优化方法求解上一步得到的目标函数，并得到生成函数；
步骤S5：利用上一步得到的生成函数以及步骤S2中得到的目标类别属性表示，直接产
生各个目标类别对应的分类模型；
步骤S6：判断步骤S5中得到的分类模型的准确性是否符合要求，如果符合结束本次学
习，如果不符合转下一步；
步骤S7：利用步骤S5中得到的分类模型，计算目标类别数据中所有无标注图像的不确
定性，并按不确定性从大到小进行排序；
步骤S8：选取上一步中不确定性最大的无标注图像进行标注，将无标注图像转化为有
标注图像；
步骤S9：对目标类别数据中图像的权重进行更新；然后转步骤S3。
2.如权利要求1中所述的一种基于跨类别迁移主动学习的图像分类方法，其特征在于，
所述步骤S2：分别针对辅助类别数据和目标类别数据构建出辅助类别属性表示和目标类别
属性表示中，利用维基百科上学习出的单词表示作为类别属性表示。
3.如权利要求1中所述的一种基于跨类别迁移主动学习的图像分类方法，其特征在于，
所述步骤S3中构造出的目标函数为：
minV,Yt||XsVAs′-Ys||F2+α||X^tVAt′-Y^t||F2+β||VA′||F2,]]>其中，α和β是控制各部分在目标函数中权重的超参数；
表示一个矩阵所有元素的平方和；
X^t=ΘtXt,Y^t=ΘtYt]]>为加权的数据，Θt=diag(θ1,θ2,...,θnt)]]>表示目标类别数据中各个
图像的权重；
为步骤S1中所述的辅助类别图像特征向量构成的矩阵；
为步骤S1中所述的目标类别图像特征向量构成的矩阵；
为辅助类别数据中每个图像所对应的类别向量构成的矩阵；
为辅助类别数据中每个辅助类别属性向量构成的矩阵，所述辅助

\t类别属性向量为所述步骤S2中辅助类别属性表示的一种表示方法；
为目标类别数据中每个目标类别属性向量构成的矩阵，所述目标

【专利技术属性】
技术研发人员：丁贵广，郭雨晨，李长青，孙鹏，
申请(专利权)人：清华大学，北京恒冠网络数据处理有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人