一种基于相似度的半监督学习数据分类算法制造技术

技术编号:26378496 阅读:21 留言:0更新日期:2020-11-19 23:47
本发明专利技术公开了一种基于相似度的半监督学习数据分类算法,包括三个部分:无标记样本的k‑means聚类,半监督相似度计算,无标记样本的k‑means聚类与半监督相似度计算相结合来扩展量少类进行模型分类,再评估模型的分类效果。本发明专利技术并没有按照k=2的方式粗略的进行聚类,而是根据半监督学习中的平滑假设和聚类假设的原理确定了一套算法机制,通过度量量少类与聚类类别之间的相似度的方式确定k值,进而确定距离量少类最近的数据集合,并扩充到标记数据中。利用相似度高的未标记数据扩充了有标记数据,有效的改善了数据不平衡的问题,从而有效提升了量少类样本的召回率和F1值。

【技术实现步骤摘要】
一种基于相似度的半监督学习数据分类算法
本专利技术涉及一种新的数据分类算法,尤其是一种基于相似度的半监督学习数据分类算法。
技术介绍
数据分类任务往往需要建立输入空间X到输出空间Y之间的映射关系f:X->Y。无论是二分类还是多分类任务,都需要大量的标记数据进行训练,这对监督数据的数量和质量都提出了要求。通常,在学术研究中的公开数据集,一般拥有大量的数据标记样本,且样本的分布相对比较均匀,模型和方法的表现都较为理想。但是,在现实应用场景中,存在着数据的监督信息有限,数据的类别分布不平衡,数据的标记内容具有很强的领域性等问题。标注信息样本不仅少,且一些强领域性的样本标注成本很高,甚至无法准确标注。数据中的量多类与量少类比例失衡的程度可能达1000:1以上。传统的数据分类方式会通过牺牲量少类的召回率的方式来提高模型的准确率,而在某些场景中,量少类的召回率(Recall)才是关心的指标。对于类别的数据分布不平衡的问题,一方面,可以通过调整数据分布的方式进行优化。主要是通过数据采样的方式,对量少类进行数据重采样或过采样,或者对量多类进行数据欠采样的方式进行优化。另一方面,可以通过改进模型算法的方式进行优化。比如通过代价敏感矩阵的方式,针对数据分布的特点,返回不同的损失,加强模型对于量少类的学习效果。对于监督数据少且强领域性的问题,可利用半监督学习的方法,主要有基于差异的方法,生成式的方法,判别式方法和基于图的方法来进行优化。
技术实现思路
专利技术目的:本专利技术针对有监督标记数据有限,标记数据类别不均衡以及标记内容领域性强的特定场景,提出一种新的数据分类算法——一种基于相似度的半监督学习数据分类算法。通过计算无标记数据与有标记数据相似度的方式扩充量少类集合,提高模型对于量少类的分类识别效果,提升量少类的召回率(Recall)和F1值。技术方案:一种基于相似度的半监督学习数据分类算法,包括三个部分:无标记样本的k-means聚类,半监督相似度计算,无标记样本的k-means聚类与半监督相似度计算相结合来扩展量少类进行模型分类,再评估模型的分类效果。在进一步的实施例中,使用半监督方法对数据分类,将筛选出来的高价值量少类的未标记数据作为标记数据加入量少类进行训练。在进一步的实施例中,还包括一种高价值量少类的数据分类框架,其主要步骤如下:步骤(1):原始数据的处理,将标记数据与未标记数据分离开来;步骤(2):基于k-means聚类的相似度收敛算法,对步骤(1)中分离出来的未标记数据进行聚类,k值由聚类结果与标记数据中的量少类的相似度计算结果确定,进而确定相似度最高的集合P';步骤(3):将步骤2确定的集合P'扩充到标记数据P进行模型训练;步骤(4):通过召回率和F1值对步骤(1)的结果进行评价。在进一步的实施例中,在步骤(1)中,原始数据分为有标记数据集合K与无标记数据集合D,有标记数据集合K分为正例P和负例N,正例P的数量<负例N的数量,故P为量少类,N为量多类。将量少类P误分为量多类N的损失是高于量多类N误分为量少类P的,即Cost(P,N)>Cost(N,P),其中Cost(i,j)表示类别i误分为j的损失;无标记数据集合D划分为D={D1,D2,···,Dk},其中k为聚类的数目;在进一步的实施例中,在步骤(2)中,k-means聚类算法如下;其中其中,k值为聚类数目,Di(i=1,...,k)是未标记数据D根据k值的划分的集合,x是Di中的样本点,μi是Di的中心。数据集D与数据集P之间的距离计算公式:其中为Di中的第j个样本点;Distance(P,Di)收敛,停止k值的增加,Di为要找的P'。在进一步的实施例中,在步骤(4)中,召回率为样本中有多少正例被预测正确,计算公式如下:其中TP为真正例,FN为假反例;F1值兼顾召回率与查准率,计算公式如下:其中,Recall为召回率,Precision为查准率,Precision=TP/(TP+FP),其中TP为真正例,FP为假正例。有益效果:本专利技术的显著优点是本专利技术并没有按照k=2的方式粗略的进行聚类,而是根据半监督学习中的平滑假设和聚类假设的原理确定了一套算法机制,通过度量量少类与聚类集合之间的相似度的方式确定k值,进而确定距离量少类最近的数据集合,并扩充到标记数据中。利用相似度高的未标记数据扩充了有标记数据,有效的改善了数据不平衡的问题,从而有效提升了量少类样本的召回率和F1值。附图说明图1原始数据划分图。图2是本专利技术的基于聚类的相似度收敛算法流程图。图3围绕少数类P的聚类结果示例图。图4本专利技术的k-means聚类收敛过程。图5聚类数目以及距离变化图。图6数据分类结果召回率和F1值。具体实施方式一种基于相似度的半监督学习数据分类算法,包括三个部分:无标记样本的k-means聚类,半监督相似度计算,无标记样本的k-means聚类与半监督相似度计算相结合来扩展量少类进行模型分类,再评估模型的分类效果。使用半监督方法对数据分类,将数据作为标记数据加入训练集进行训练。本专利技术还包括一种高价值量少类的数据分类框架,其主要步骤如下:步骤(1):原始数据的处理,将标记数据与未标记数据分离开来;步骤(2):基于k-means聚类的相似度收敛算法,对步骤(1)中分离出来的未标记数据进行聚类,k值由聚类结果与标记数据中的量少类的相似度计算结果确定,进而确定相似度最高的集合P';步骤(3):将步骤2确定的集合P'扩充到标记数据P进行模型训练;步骤(4):通过召回率和F1值对步骤(1)的结果进行评价。1.原始数据的处理原始数据可分为有标记数据集合K与无标记数据集合D(原始数据划分图如图1)。数据集K中的样本包含两类,即正例P和负例N,其中正例P的数量远小于负例N的数量,而我们更加关心对于量少类P的召回率。因此,将量少类P误分为量多类N的损失是高于量多类N误分为量少类P的,即Cost(P,N)>Cost(N,P),其中Cost(i,j)表示类别i误分为j的损失。对于无标记数据集合D,可通过聚类的方式将D划分为D={D1,D2,···,Dk},其中k为聚类的数目。基于一定的先验知识,与半监督数据的平滑假设与聚类假设可知,与P最为相似的聚类集合P'=Di(i=1,...,k)大概率也是标签为P的样本。将集合P'扩充到P中可以在提高召回率的情况下,尽可能的减少准确率的下降,提高F1值。难点在于对聚类类别k值的确定和对相似度的判断。2.基于k-means聚类的相似度收敛算法这里不是将数据集根据目标类别lable={P,N}划分为2类,而是通过k值不断增长迭代,计算目标标记样本与未标记聚类样本之间的相似度的方式,使得k值收敛到一确定的数值,从而确定k的大小。(1本文档来自技高网...

【技术保护点】
1.一种基于相似度的半监督学习数据分类算法,其特征在于,包括三个部分:无标记样本的k-means聚类,半监督相似度计算,无标记样本的k-means聚类与半监督相似度计算相结合来扩展量少类进行模型分类,再评估模型的分类效果。/n

【技术特征摘要】
1.一种基于相似度的半监督学习数据分类算法,其特征在于,包括三个部分:无标记样本的k-means聚类,半监督相似度计算,无标记样本的k-means聚类与半监督相似度计算相结合来扩展量少类进行模型分类,再评估模型的分类效果。


2.根据权利要求1所述的一种基于相似度的半监督学习数据分类算法,其特征在于,使用半监督方法对数据分类,将筛选出来的高价值量少类的未标记数据作为标记数据加入量少类进行训练。


3.根据权利要求1所述的一种基于相似度的半监督学习数据分类算法,其特征在于,还包括一种高价值量少类的数据分类框架,其主要步骤如下:
步骤(1):原始数据的处理,将标记数据与未标记数据分离开来;
步骤(2):基于k-means聚类的相似度收敛算法,对步骤(1)中分离出来的未标记数据进行聚类,k值由聚类结果与标记数据中的量少类的相似度计算结果确定,进而确定相似度最高的集合P';
步骤(3):将步骤2确定的集合P'扩充到标记数据P进行模型训练;
步骤(4):通过召回率和F1值对步骤(1)的结果进行评价。


4.根据权利要求3所述的一种基于相似度的半监督学习数据分类算法,其特征在于,在步骤(1)中,原始数据分为有标记数据集合K与无标记数据集合D,有标记数据集合K分为正例P和负例N,正例P的数量<负例N的数...

【专利技术属性】
技术研发人员:孙栓柱陈广高阳周春蕾李逗孙彬王林王其祥高进李春岩沈洋黄治军张磊傅高健周心澄
申请(专利权)人:江苏方天电力技术有限公司江苏万维艾斯网络智能产业创新中心有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1