一种基于相似度的半监督学习数据分类算法制造技术

技术编号：26378496 阅读：25 留言：0更新日期：2020-11-19 23:47

本发明专利技术公开了一种基于相似度的半监督学习数据分类算法，包括三个部分：无标记样本的k‑means聚类，半监督相似度计算，无标记样本的k‑means聚类与半监督相似度计算相结合来扩展量少类进行模型分类，再评估模型的分类效果。本发明专利技术并没有按照k=2的方式粗略的进行聚类，而是根据半监督学习中的平滑假设和聚类假设的原理确定了一套算法机制，通过度量量少类与聚类类别之间的相似度的方式确定k值，进而确定距离量少类最近的数据集合，并扩充到标记数据中。利用相似度高的未标记数据扩充了有标记数据，有效的改善了数据不平衡的问题，从而有效提升了量少类样本的召回率和F1值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于相似度的半监督学习数据分类算法
本专利技术涉及一种新的数据分类算法，尤其是一种基于相似度的半监督学习数据分类算法。
技术介绍
数据分类任务往往需要建立输入空间X到输出空间Y之间的映射关系f:X->Y。无论是二分类还是多分类任务，都需要大量的标记数据进行训练，这对监督数据的数量和质量都提出了要求。通常，在学术研究中的公开数据集，一般拥有大量的数据标记样本，且样本的分布相对比较均匀，模型和方法的表现都较为理想。但是，在现实应用场景中，存在着数据的监督信息有限，数据的类别分布不平衡，数据的标记内容具有很强的领域性等问题。标注信息样本不仅少，且一些强领域性的样本标注成本很高，甚至无法准确标注。数据中的量多类与量少类比例失衡的程度可能达1000:1以上。传统的数据分类方式会通过牺牲量少类的召回率的方式来提高模型的准确率，而在某些场景中，量少类的召回率(Recall)才是关心的指标。对于类别的数据分布不平衡的问题，一方面，可以通过调整数据分布的方式进行优化。主要是通过数据采样的方式，对量少类进行数据重采样或...

【技术保护点】
1.一种基于相似度的半监督学习数据分类算法，其特征在于，包括三个部分：无标记样本的k-means聚类，半监督相似度计算，无标记样本的k-means聚类与半监督相似度计算相结合来扩展量少类进行模型分类，再评估模型的分类效果。/n

【技术特征摘要】
1.一种基于相似度的半监督学习数据分类算法，其特征在于，包括三个部分：无标记样本的k-means聚类，半监督相似度计算，无标记样本的k-means聚类与半监督相似度计算相结合来扩展量少类进行模型分类，再评估模型的分类效果。

2.根据权利要求1所述的一种基于相似度的半监督学习数据分类算法，其特征在于，使用半监督方法对数据分类，将筛选出来的高价值量少类的未标记数据作为标记数据加入量少类进行训练。

3.根据权利要求1所述的一种基于相似度的半监督学习数据分类算法，其特征在于，还包括一种高价值量少类的数据分类框架，其主要步骤如下：
步骤(1)：原始数据的处理，将标记数据与未标记数据分离开来；
步骤(2)：基于k-means聚类的相似度收敛算法，对步骤(1)中分离出来的未标记数据进行聚类，k值由聚类结果与标记数据中的量少类的相似度计算结果确定，进而确定相似度最高的集合P'；
步骤(3)：将步骤2确定的集合P'扩充到标记数据P进行模型训练；
步骤(4)：通过召回率和F1值对步骤(1)的结果进行评价。

4.根据权利要求3所述的一种基于相似度的半监督学习数据分类算法，其特征在于，在步骤(1)中，原始数据分为有标记数据集合K与无标记数据集合D，有标记数据集合K分为正例P和负例N，正例P的数量＜负例N的数...

【专利技术属性】
技术研发人员：孙栓柱，陈广，高阳，周春蕾，李逗，孙彬，王林，王其祥，高进，李春岩，沈洋，黄治军，张磊，傅高健，周心澄，
申请(专利权)人：江苏方天电力技术有限公司，江苏万维艾斯网络智能产业创新中心有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人