一种基于随机重采样的半监督学习图像分类方法技术

技术编号：22262485 阅读：29 留言：0更新日期：2019-10-10 15:00

本发明专利技术涉及一种基于随机重采样的半监督学习图像分类方法，属于机器学习中半监督学习算法研究，用于提升半监督学习算法在无模型假设下的准确率精度。该算法包括如下步骤：1)采用随机重采样+投票的方法构造核矩阵；2)构造概率转移矩阵，并使用EM迭代算法不断迭代；3)在无标记数据样本中选取迭代后概率最大的标签。在手写数据集MNIST上的实验结果表明，同原始半监督学习算法分析相比，在使用随机重采样构造时，LP算法在MNIST数据集上有标记数据与无标记数据1：5的情况下识别错误率(equal error rate)相对下降67.96％。

A Semi-supervised Learning Image Classification Method Based on Random Resampling

全部详细技术资料下载

【技术实现步骤摘要】
一种基于随机重采样的半监督学习图像分类方法
本专利技术属于图像分类
，提出使用不依赖模型假设的随机重采样的密度估计方法改进基于图的半监督学习算法。
技术介绍
图像分类作为图像领域的一种重要领域，一直以来都是图像处理中的一个重要研究热点。近些年来，很多研究学者在图像分类问题上进行了大量的研究，提出了很多先进的分类算法，如支持向量机(SVM)、深层神经网络(DNN)、随机森林(Randomforest)等。大部分图像分类算法都是基于统计模型的，用户需要耗费大量的人力物力对图像样本进行标注，然后通过训练标注样本得到模型。在实际应用中，标注大量图像样本耗费时间，并且时比较困难的。因此我们采用半监督学习方法，用少量标记的图像训练模型，从而实现图像分类。半监督学习(semi-supervisedlearning)目前是机器学习领域中的一个研究热点方向，结合了有监督学习和无监督学习算法，通过大量的未标记数据和少量标记数据来构造更好的分类器。半监督学习算法同时利用有标记样本和无标记样本进行学习。将数据集X＝{x1,x2,…,xn}(n＝l+u)(X代表每个数据点，例如，在图像中表示每个图象，xi代表第i个图像的所有像素点特征值)分为两部分，一部分是有标记数据集X1＝{x1,…,xl}，这部分数据点xi标记由yi给出，另一部分无标记数据集为Xu＝{xl+1,…,xl+u}并且有u＞＞l，即无标记数据远远多于有标记数据。半监督学习算法主要是利用所有数据信息及有标记数据的标签信息来估计无标记数据的标签信息。最早用到半监督学习思想的算法是自训练方法(见参考文献self-tr...

【技术保护点】
1.一种基于随机重采样的半监督学习图像分类方法，其特征在于步骤如下：步骤1：准备训练数据分别读取手写体MNIST图像数据集，数据点数是70000，每个数据样本点包含784个数据维度特征或者手写体USPS图像数据集，数据点数是9298，每个数据样本点包含256个数据维度特征或者物体识别COIL20图像数据集，数据点数是1440，每个数据样本点包含1024个数据维度特征或者物体识别COIL100图像数据集，数据点数是7200，每个数据样本点包含1024个数据维度特征；将图像数据样本按照有标签到无标签的顺序排列；步骤2：利用随机重采样和投票方法构造核矩阵首先，训练k‑中心聚类器：第一步：随机地选择每个图像数据集的多维特征；第二步：随机地选择k个数据点作为聚类器的中心点；第三步：对输入的训练数据做k‑中心聚类，并输出[0,1]值的稀疏矢量；经过k‑中心聚类器输出稀疏矢量：hv求内积构造核矩阵：

【技术特征摘要】
1.一种基于随机重采样的半监督学习图像分类方法，其特征在于步骤如下：步骤1：准备训练数据分别读取手写体MNIST图像数据集，数据点数是70000，每个数据样本点包含784个数据维度特征或者手写体USPS图像数据集，数据点数是9298，每个数据样本点包含256个数据维度特征或者物体识别COIL20图像数据集，数据点数是1440，每个数据样本点包含1024个数据维度特征或者物体识别COIL100图像数据集，数据点数是7200，每个数据样本点包含1024个数据维度特征；将图像数据样本按照有标签到无标签的顺序排列；步骤2：利用随机重采样和投票方法构造核矩阵首先，训练k-中心聚类器：第一步：随机地选择每个图像数据集的多维特征；第二步：随机地选择k个数据点作为聚类器的中心点；第三步：对输入的训练数据做k-中心聚类，并输出[0,1...

【专利技术属性】
技术研发人员：张晓雷，王建宇，
申请(专利权)人：西北工业大学深圳研究院，西北工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人