一种半监督分类预测方法技术

技术编号:21453917 阅读:26 留言:0更新日期:2019-06-26 04:46
本发明专利技术公开了一种基于半监督算法和消除类别区域冗余的方法。属于数据挖掘领域。该方法针对分类预测任务,减少类别局部区域的冗余来优化目标,减少过拟合的风险,从而得到对整体判别能力较强的模型。该方法的实施思路分为两个过程:首先从每个类别出发,找到每个类别的中心,然后选择中心的周围的局部区域;其次,考虑到局部区域的冗余性,利用随机采样的方法减少数据的冗余度。本发明专利技术可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类的样本冗余问题,能显著提升分类准确率。

【技术实现步骤摘要】
一种半监督分类预测方法
本专利技术属于数据挖掘

技术介绍
随着信息技术的快速发展,基于大数据的科学研究和生产实践已经普遍化。然而,随着数据量的增加,传统的监督学习需要大量有标记的样本,大量数据的标注会造成人力资源的浪费。因此,人们提出了半监督的方法。基于半监督的学习同时从有标签数据和无标签数据中同时获得背后有价值的信息,同时解决大量数据标注的问题。其中,半监督的集成方法作为目前主流的方法,在疾病诊断、文本分类、人脸识别、语音识别、网页分类等研究领域得到了广泛的应用。然而,在某些情况下,多数分类器的预测结果可能是错误的,此时,从少数分类器的角度看,它收到的是有“有标记噪音”的样本,从而对整个模型将会产生较大的误差,因此在分类任务中并不是能够达到最好的性能。因此,专门针对分类预测任务,综合考虑数据的分布和类别之间的相关性,提出一种半监督分类预测方法,获得更加均匀的数据分布,提高后续分类预测任务的准确率。通过对现有的专利及相关技术的检索发现,现有的关于半监督的方法主要有:(1)李寿山,张栋等.一种tri-training半监督学习方法及装置,CN104794500A[p].2015.提出一种利用训练数据分别训练三个基分类器,分别利用三个分类器获取与之相对应的第二待标注的类别标签;当三个分类器的至少两个个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注标签最终标注的类别标签;将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,有效的降低了对第二待标注样本的误标注率,提高了标注集的质量,进而获得了更好的半监督学习的效果。(2)杜兰,王燕等.基于半监督协同训练的SAR目标鉴别方法,CN107977667A[p].2018.提出一种基于半监督协同训练的SAR图像目标鉴别方法,其实现过程是:1)将恒虚警率CFAR检测切片作为训练样本,从中取少量的样本进行标记;2)提取训练样本的两个林肯特征组;3)用标记过样本的两个林肯特征组训练两个分类器;4)利用3)得到的分类器对无标记样本进行鉴别;5)两个分类器挑选各自置信度较高的少数样本加入到对方的有标记训练样本中;6)利用新的有标记样本重复4)#5)得到最终的分类器;7)用分类器对测试样本进行分类,得到分类结果。(3)沈琦,牛立坤.基于改进的SVM-KNN算法的半监督托攻击检测方法,CN108154178A[p].2018.提出一种基于改进的SVM-KNN算法的半监督托攻击检测方法,包括:将已标记训练集训练出初始SVM分类器;利用初始SVM分类器对未标记数据集进行分类;将正常数据并入训练集中,以改进的KNN相似度公式作为KNN算法的距离公式,对其余的数据进行二次分类;更新训练集,并重新训练新的SVM分类器;判断分类结果是否达到最佳检测性能,若判定是,则输出最终分类器,否则循环对未标记数据集进行分类;利用最终分类器对数据进行托攻击检测。(4)房鼎益,郑欣等.一种多视角数据的半监督特征选择方法,CN106228027A[p].2016.提出一种多视角数据的半监督特征选择方法,该方法首先从不同的视角采集数据的特征构成数据样本,继而构建数据样本的特征选择矩阵、拉普拉斯矩阵、对角矩阵,使用特征选择矩阵定义目标函数,对特征选择矩阵更新并使目标函数收敛;最后的在收敛的时候,利用特征选择矩阵构成的分类器对样本进行分类。通过以上的方法可以看出,集成的方法在一定条件下为最后的结果带来提升;但是,传统的半监督方法并不能够保证给模型达到最好的结果,甚至还有可能带来过拟合的风险。这是因为在模型的迭代过程中,不断地增加高置信度的数据会让整个模型带有趋向性。为解决该类问题,本专利技术提出了减少训练数据的冗余,从而避免模型的过拟合。同时通过这个方法,能够挖掘更多的信息,给模型带来一定的性能提升。
技术实现思路
本专利技术的目的是提供一种半监督分类预测方法,它能有效地提高分类预测准确率。本专利技术所采用的技术方案为:一种半监督分类预测方法,能够针对分类任务增强模型的性能,通过关注类别的冗余度,在局部区域对数据进行离散化。该方案的实施步骤如下:步骤一、构建有标签数据和无标签数据:(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;步骤二、对无标签数据进行伪标签标记:(1)利用数据集中的有标签数据,训练一个基模型分类器;(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据加入到原来的训练集A=[L1,L2,...,Lc]∈Rc,小于置信度δ保留为无标签数据B=[U1,U2,...,Uc]∈Rc;其中Lk为类别为k的数据集,k=1,2,3...;R表示实体,c为数据的所有类别数目;步骤三、寻找带有冗余的数据区域,具体实现步骤如下:(1)获得有标签的数据集A=[L1,L2,...,Lc]∈Rc,将类别为k有标签数据记为Lk,并记样本集Lk=[l1,l2,...,ln]∈Rp×n,其中样本属性值集为X=[x1,x2,...,xn]∈R(p-1)×n,样本标签值为Y=[y1,y2,...,yn]∈R1×n;设样本集X的均值将作为样本集Lk的数据中心;其中,n为视图X,Y的样本个数,p分别为样本X的属性个数,xi和yi分别表示X,Y的第i个样本;(2)对所有的类别求数据中心M=[m1,m2,...,mc]∈Rp×c;分别围绕每个中心产生一个有限空间,将有限空间里的样本记为qk,记有限空间集为Q=[q1,q2,...,qc]∈Rc;(3)在充分考虑每个类别的样本的分布情况下,获得一个距离阈值τ,将量化有限空间中所有样本到中心的距离,利用阈值及中心M对有标签数据进行划分。在同样量化的目标下,将数据样本到中心M的距离小于τ的量化空间集作为以及将数据样本到中心M的距离大于τ的量化空间集作为(4)同时,τ控制每个中心的样本密度针对所有量化空间集Qτ,利用密度阈值ρτ对数据集Qτ划分为为需要优化的冗余区域,为均匀空间集;步骤四、优化空间集并重新训练基模型;(1)在步骤三中获得冗余区域其中c1=n-c2,c2为有限空间集数量;(2)在充分考虑每个冗余区域的中心密度,利用随机采样的方法对有限量化空间里的数据进行离散化;设置采样率η将保证数据的平稳性,记采样后的量化空间为其中(3)将步骤三中所获得的Qo,合并成新的有标签数据集,然后重复步骤二,直到无标签数据集为空,或者到达所设定的迭代次数。在方案实际的操作中,阈值τ和ρτ的组合方式可根据具体问题、数据集分布等情况择优选择。与现有技术相比,本专利技术的优点和效果:本专利技术主要针对分类预测任务,基于半监督算法和类别内的冗余性两方面来增强分类任务的准确性。与已有的方法相比,该方法从数据分布考虑,通过平衡数据的信息度来提高整体的性能;同时能够减少数据类别间的不平衡度,从而能够减少过拟合的风险。附图说明图1为本专利技术的方案实施流程图。本文档来自技高网
...

【技术保护点】
1.一种半监督分类预测方法,包括以下步骤:步骤一、构建有标签数据和无标签数据:(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;步骤二、对无标签数据进行伪标签标记:(1)利用数据集中的有标签数据,训练一个基模型分类器;(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据加入到原来的训练集A=[L1,L2,...,Lc]∈R

【技术特征摘要】
1.一种半监督分类预测方法,包括以下步骤:步骤一、构建有标签数据和无标签数据:(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;步骤二、对无标签数据进行伪标签标记:(1)利用数据集中的有标签数据,训练一个基模型分类器;(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据加入到原来的训练集A=[L1,L2,...,Lc]∈Rc,小于置信度δ保留为无标签数据B=[U1,U2,...,Uc]∈Rc;其中Lk为类别为k的数据集,k=1,2,3...;R表示实体,c为数据的所有类别数目;步骤三、寻找带有冗余的数据区域,具体实现步骤如下:(1)获得有标签的数据集A=[L1,L2,...,Lc]∈Rc,将类别为k有标签数据记为Lk,并记样本集Lk=[l1,l2,...,ln]∈Rp×n,其中样本属性值集为X=[x1,x2,...,xn]∈R(p-1)×n,样本标签值为Y=[y1,y2,...,yn]∈R1×n...

【专利技术属性】
技术研发人员:杨燕汪衡
申请(专利权)人:西南交通大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1