一种半监督分类预测方法技术

技术编号：21453917 阅读：26 留言：0更新日期：2019-06-26 04:46

本发明专利技术公开了一种基于半监督算法和消除类别区域冗余的方法。属于数据挖掘领域。该方法针对分类预测任务，减少类别局部区域的冗余来优化目标，减少过拟合的风险，从而得到对整体判别能力较强的模型。该方法的实施思路分为两个过程：首先从每个类别出发，找到每个类别的中心，然后选择中心的周围的局部区域；其次，考虑到局部区域的冗余性，利用随机采样的方法减少数据的冗余度。本发明专利技术可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类的样本冗余问题，能显著提升分类准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种半监督分类预测方法
本专利技术属于数据挖掘

技术介绍
随着信息技术的快速发展，基于大数据的科学研究和生产实践已经普遍化。然而，随着数据量的增加，传统的监督学习需要大量有标记的样本，大量数据的标注会造成人力资源的浪费。因此，人们提出了半监督的方法。基于半监督的学习同时从有标签数据和无标签数据中同时获得背后有价值的信息，同时解决大量数据标注的问题。其中，半监督的集成方法作为目前主流的方法，在疾病诊断、文本分类、人脸识别、语音识别、网页分类等研究领域得到了广泛的应用。然而，在某些情况下，多数分类器的预测结果可能是错误的，此时，从少数分类器的角度看，它收到的是有“有标记噪音”的样本，从而对整个模型将会产生较大的误差，因此在分类任务中并不是能够达到最好的性能。因此，专门针对分类预测任务，综合考虑数据的分布和类别之间的相关性，提出一种半监督分类预测方法，获得更加均匀的数据分布，提高后续分类预测任务的准确率。通过对现有的专利及相关技术的检索发现，现有的关于半监督的方法主要有：(1)李寿山，张栋等.一种tri-training半监督学习方法及装置，CN104794500A[p].2015.提出一种利用训练数据分别训练三个基分类器，分别利用三个分类器获取与之相对应的第二待标注的类别标签；当三个分类器的至少两个个基分类器确定的第二待标注样本的类别标签相同时，则确定第二待标注样本的类别标签为第二待标注标签最终标注的类别标签；将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,有效的降低了对第二待标注样本的误标...

【技术保护点】
1.一种半监督分类预测方法，包括以下步骤：步骤一、构建有标签数据和无标签数据：(1)利用爬虫技术从互联网中获取数据，或者利用已有的数据集；这些数据集中每个样本将包括具体的属性特征；(2)在整个数据集中，每个样本的类别将由标签唯一表示；其中，有标签表示的样本称为有标签数据，无标签表示的样本称为无标签数据；步骤二、对无标签数据进行伪标签标记：(1)利用数据集中的有标签数据，训练一个基模型分类器；(2)利用基模型分类器对无标签数据进行预测，并给出每个样本在类别上的概率值；设置一个高置信度阈值δ，与所有样本的所属类别概率值比较，将大于置信度δ的伪标签数据加入到原来的训练集A＝[L1,L2,...,Lc]∈R

【技术特征摘要】
1.一种半监督分类预测方法，包括以下步骤：步骤一、构建有标签数据和无标签数据：(1)利用爬虫技术从互联网中获取数据，或者利用已有的数据集；这些数据集中每个样本将包括具体的属性特征；(2)在整个数据集中，每个样本的类别将由标签唯一表示；其中，有标签表示的样本称为有标签数据，无标签表示的样本称为无标签数据；步骤二、对无标签数据进行伪标签标记：(1)利用数据集中的有标签数据，训练一个基模型分类器；(2)利用基模型分类器对无标签数据进行预测，并给出每个样本在类别上的概率值；设置一个高置信度阈值δ，与所有样本的所属类别概率值比较，将大于置信度δ的伪标签数据加入到原来的训练集A＝[L1,L2,...,Lc]∈Rc，小于置信度δ保留为无标签数据B＝[U1,U2,...,Uc]∈Rc；其中Lk为类别为k的数据集，k＝1,2,3...；R表示实体，c为数据的所有类别数目；步骤三、寻找带有冗余的数据区域，具体实现步骤如下：(1)获得有标签的数据集A＝[L1,L2,...,Lc]∈Rc，将类别为k有标签数据记为Lk，并记样本集Lk＝[l1,l2,...,ln]∈Rp×n，其中样本属性值集为X＝[x1,x2,...,xn]∈R(p-1)×n,样本标签值为Y＝[y1,y2,...,yn]∈R1×n...

【专利技术属性】
技术研发人员：杨燕，汪衡，
申请(专利权)人：西南交通大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人