一种基于随机重采样的半监督学习图像分类方法技术

技术编号:22262485 阅读:29 留言:0更新日期:2019-10-10 15:00
本发明专利技术涉及一种基于随机重采样的半监督学习图像分类方法,属于机器学习中半监督学习算法研究,用于提升半监督学习算法在无模型假设下的准确率精度。该算法包括如下步骤:1)采用随机重采样+投票的方法构造核矩阵;2)构造概率转移矩阵,并使用EM迭代算法不断迭代;3)在无标记数据样本中选取迭代后概率最大的标签。在手写数据集MNIST上的实验结果表明,同原始半监督学习算法分析相比,在使用随机重采样构造时,LP算法在MNIST数据集上有标记数据与无标记数据1:5的情况下识别错误率(equal error rate)相对下降67.96%。

A Semi-supervised Learning Image Classification Method Based on Random Resampling

【技术实现步骤摘要】
一种基于随机重采样的半监督学习图像分类方法
本专利技术属于图像分类
,提出使用不依赖模型假设的随机重采样的密度估计方法改进基于图的半监督学习算法。
技术介绍
图像分类作为图像领域的一种重要领域,一直以来都是图像处理中的一个重要研究热点。近些年来,很多研究学者在图像分类问题上进行了大量的研究,提出了很多先进的分类算法,如支持向量机(SVM)、深层神经网络(DNN)、随机森林(Randomforest)等。大部分图像分类算法都是基于统计模型的,用户需要耗费大量的人力物力对图像样本进行标注,然后通过训练标注样本得到模型。在实际应用中,标注大量图像样本耗费时间,并且时比较困难的。因此我们采用半监督学习方法,用少量标记的图像训练模型,从而实现图像分类。半监督学习(semi-supervisedlearning)目前是机器学习领域中的一个研究热点方向,结合了有监督学习和无监督学习算法,通过大量的未标记数据和少量标记数据来构造更好的分类器。半监督学习算法同时利用有标记样本和无标记样本进行学习。将数据集X={x1,x2,…,xn}(n=l+u)(X代表每个数据点,例如,在图像中表示每个图象,xi代表第i个图像的所有像素点特征值)分为两部分,一部分是有标记数据集X1={x1,…,xl},这部分数据点xi标记由yi给出,另一部分无标记数据集为Xu={xl+1,…,xl+u}并且有u>>l,即无标记数据远远多于有标记数据。半监督学习算法主要是利用所有数据信息及有标记数据的标签信息来估计无标记数据的标签信息。最早用到半监督学习思想的算法是自训练方法(见参考文献self-training)(Chapelle,Olivier,BernhardScholkopf,andAlexanderZien."Semi-supervisedlearning(chapelle,o.etal.,eds.;2006)[bookreviews]."IEEETransactionsonNeuralNetworks20.3(2009):542-542.),这是一个重复使用监督学习方法的包装算法,半监督学习在20世纪70年代真正起步,当时考虑了用未标记数据估计fisher线性判别式规则(Fisherlineardiscriminantrule)的问题(见参考文献HosmerJr,DavidW."Acomparisonofiterativemaximumlikelihoodestimatesoftheparametersofamixtureoftwonormaldistributionsunderthreedifferenttypesofsample."Biometrics(1973):761-770.)。该方法是在其中每个类别密度(classconditionaldensity)是高斯协方差矩阵(Gaussianwithequalcovariancematrix)的情况,然后借助迭代算法如期望最大化(EM)算法,使标记和未标记的数据最大化模型成立。经过几十年的发展,半监督学习算法主要分为半监督生成模型、自训练方法、协同训练和多视角学习、半监督支持向量机(也称作直推式支持向量机)、基于图的方法等。近几年,随着深度学习的兴起,一些基于深度学习的半监督学习算法模型被提出。总的来说,半监督学习算法主要采用核方法或者多层神经网络的方法对数据进行密度估计。半监督学习算法已在生物图像分析、文本分析、哈希算法等众多领域中得到广泛应用,利用少量标记数据通过半监督学习算法预测出未标记数据标签,避免昂贵且费时的人工标记,减少实验周期。但传统的基于核方法的半监督学习算法在进行数据密度估计时采用了模型假设的方法,例如采用高斯核方法估计数据密度分布时假设了数据呈高斯分布,这种假设不一定准确。如果避免模型假设,基于半监督学习的图像分类算法会有较大的改进空间。因此我们提出了采用基于随机冲采样半监督学习的图像分类算法,该方法较好的解决了图像分类问题中样本的分布假设不准确问题,使得图像分类结果更稳定可靠。
技术实现思路
要解决的技术问题为了避免现有技术的不足之处,本专利技术提出一种基于随机重采样的半监督学习图像分类方法,以提升数据分类的准确率。技术方案一种基于随机重采样的半监督学习图像分类方法,其特征在于步骤如下:步骤1:准备训练数据分别读取手写体MNIST图像数据集,数据点数是70000,每个数据样本点包含784个数据维度特征或者手写体USPS图像数据集,数据点数是9298,每个数据样本点包含256个数据维度特征或者物体识别COIL20图像数据集,数据点数是1440,每个数据样本点包含1024个数据维度特征或者物体识别COIL100图像数据集,数据点数是7200,每个数据样本点包含1024个数据维度特征;将图像数据样本按照有标签到无标签的顺序排列;步骤2:利用随机重采样和投票方法构造核矩阵首先,训练k-中心聚类器:第一步:随机地选择每个图像数据集的多维特征;第二步:随机地选择k个数据点作为聚类器的中心点;第三步:对输入的训练数据做k-中心聚类,并输出[0,1]值的稀疏矢量;经过k-中心聚类器输出稀疏矢量:hv求内积构造核矩阵:步骤3:利用得到的核矩阵构造概率转移矩阵:其中,Ti,j表示标签从点j传递至i的概率,wij为核矩阵第i行第j列元素,wkj为核矩阵第i行元素之和;将概率转移矩阵根据数据点有无标签分为四个子矩阵:Puu、Pul、Plu、Pll,Puu为标签从已预测的无标记的点至没有预测的无标记的点的概率,Pul为标签从有标记的点至没有预测的无标记的点的概率,Plu为标签从没有预测的无标记的点对有标记的点的概率,Pll为标签从有标记的点至有标记的点的概率;步骤4:利用期望最大化算法不断迭代,利用有标记数据点的标签信息及数据样本信息估计无标记数据的标签信息:fu=(I-Puu)-1Pulfl其中,fl为已知的标签,fu为待预测的标签;根据估计出的标签信息对图像进行分类。有益效果本专利技术提出的一种基于随机重采样的半监督学习图像分类方法,通过随即重采样+投票构造核矩阵替代传统半监督学习算法中的核矩阵,实现无模型假设的半监督学习图像分类算法,避免了传统模型对数据的空间密度分布假设,在生物图像分析、文本分类、哈希算法等领域中相比传统方法而言提升了分类精度,增强了实验结果的可信度。附图说明图1本专利技术算法具体流程图具体实施方式现结合实施例、附图对本专利技术作进一步描述:该算法通过对数据进行随机重采样替代传统半监督学习算法中核矩阵,算法具体流程图见附图1所示,具体包括以下步骤:步骤1:准备训练数据利用手写体数据集MNIST和USPS以及物体识别数据集COIL20和COIL100进行实验。分别读取手写体MNIST图像数据集,数据点数是70000,每个数据样本点包含784个数据维度特征或者手写体USPS图像数据集,数据点数是9298,每个数据样本点包含256个数据维度特征或者物体识别COIL20图像数据集,数据点数是1440,每个数据样本点包含1024个数据维度特征或者物体识别COIL100图像数据集,数据点数是7200,每个数据样本点包含1024个数据维度特征;将图像数据样本按照有标签到无标签的顺序排本文档来自技高网
...

【技术保护点】
1.一种基于随机重采样的半监督学习图像分类方法,其特征在于步骤如下:步骤1:准备训练数据分别读取手写体MNIST图像数据集,数据点数是70000,每个数据样本点包含784个数据维度特征或者手写体USPS图像数据集,数据点数是9298,每个数据样本点包含256个数据维度特征或者物体识别COIL20图像数据集,数据点数是1440,每个数据样本点包含1024个数据维度特征或者物体识别COIL100图像数据集,数据点数是7200,每个数据样本点包含1024个数据维度特征;将图像数据样本按照有标签到无标签的顺序排列;步骤2:利用随机重采样和投票方法构造核矩阵首先,训练k‑中心聚类器:第一步:随机地选择每个图像数据集的多维特征;第二步:随机地选择k个数据点作为聚类器的中心点;第三步:对输入的训练数据做k‑中心聚类,并输出[0,1]值的稀疏矢量;经过k‑中心聚类器输出稀疏矢量:hv求内积构造核矩阵:

【技术特征摘要】
1.一种基于随机重采样的半监督学习图像分类方法,其特征在于步骤如下:步骤1:准备训练数据分别读取手写体MNIST图像数据集,数据点数是70000,每个数据样本点包含784个数据维度特征或者手写体USPS图像数据集,数据点数是9298,每个数据样本点包含256个数据维度特征或者物体识别COIL20图像数据集,数据点数是1440,每个数据样本点包含1024个数据维度特征或者物体识别COIL100图像数据集,数据点数是7200,每个数据样本点包含1024个数据维度特征;将图像数据样本按照有标签到无标签的顺序排列;步骤2:利用随机重采样和投票方法构造核矩阵首先,训练k-中心聚类器:第一步:随机地选择每个图像数据集的多维特征;第二步:随机地选择k个数据点作为聚类器的中心点;第三步:对输入的训练数据做k-中心聚类,并输出[0,1...

【专利技术属性】
技术研发人员:张晓雷王建宇
申请(专利权)人:西北工业大学深圳研究院西北工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1