分类器生成方法、分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:17879576 阅读:74 留言:0更新日期:2018-05-06 01:13
本发明专利技术实施例公开了一种分类器生成方法、分类方法、装置、电子设备及存储介质,将特征向量集合对应的特征集划分为多个子特征集,依据多个子特征集中的特征,将特征向量集合中的特征向量划分为分别与每个子特征集对应的子特征向量集合,对应每个子特征向量集合建立初始分类器,对初始分类器进行协同训练,得到半监督分类器。也就是说,不同的分类器使用同一特征向量的不同的子特征向量进行训练,因此,所生成的分类器利用了相同数据的不同特征之间差异,提高了半监督分类方法的分类效果的稳定性。

Classifier generation method, classification method, device, electronic device and storage medium

The embodiment of the invention discloses a classifier generation method, a classification method, a device, an electronic device and a storage medium. The feature set corresponding to the set of feature vectors is divided into a number of sub feature sets. According to the characteristics of a number of sub feature sets, the feature vectors in the set of feature vectors are divided into each subset and each sub set, respectively. The sub feature vector set should be set up for each subset of the sub feature vectors, and the initial classifier is trained together to get the semi supervised classifier. That is to say, different classifier uses the different subfeature vectors of the same eigenvector to train. Therefore, the classifier uses the difference between the different features of the same data, and improves the stability of the classification effect of the semi supervised classification method.

【技术实现步骤摘要】
分类器生成方法、分类方法、装置、电子设备及存储介质
本专利技术涉及机器学习
,更具体地说,涉及一种分类器生成方法、分类方法、装置、电子设备及存储介质。
技术介绍
分类问题是数据分析和数据挖掘等领域中的热点问题之一。数据分类通常分为模型训练和类别预测两个步骤,即先由标记好类别的数据训练分类模型,然后根据分类模型预测新数据的类别。然而,大量标记好类别的数据是很难获取的,因为获得这些标记需要耗费大量的人力物力。事实上,在真实世界中通常存在大量的无标记数据,有标记数据则比较少。为此,研究者提出半监督分类方法,它主要考虑如何利用少量的有标记数据和大量的无标记数据进行模型训练和类别预测的问题。通常,半监督分类方法根据使用的分类器的数量,分为单分类器方法和多分类器方法。多分类器方法由于可以利用分类器之间的差异(即分类器所使用分类算法的差异)使得分类器具有较强的分类能力和较快的收敛速度而应用更广。然而,专利技术人在实现本申请过程中发现,现有的使用多分类器的半监督分类方法的分类效果不稳定。
技术实现思路
本专利技术的目的是提供一种分类器生成方法、分类方法、装置、电子设备及存储介质,以提高半监督分类方本文档来自技高网...
分类器生成方法、分类方法、装置、电子设备及存储介质

【技术保护点】
一种分类器生成方法,其特征在于,包括:将特征向量集合对应的特征集划分为多个子特征集,所述特征向量集合中包括有标记数据的特征向量和无标记数据的特征向量;依据所述多个子特征集中的特征,将所述特征向量集合中的特征向量进行划分,得到分别与每个子特征集对应的子特征向量集合;利用所述子特征向量集合中的有标记数据的子特征向量对预设分类模型进行训练,得到所述子特征向量集合对应的初始分类器;利用子特征向量集合中的有标记数据的子特征向量和无标记数据的子特征向量,将得到的初始分类器进行协同训练,得到半监督分类器。

【技术特征摘要】
1.一种分类器生成方法,其特征在于,包括:将特征向量集合对应的特征集划分为多个子特征集,所述特征向量集合中包括有标记数据的特征向量和无标记数据的特征向量;依据所述多个子特征集中的特征,将所述特征向量集合中的特征向量进行划分,得到分别与每个子特征集对应的子特征向量集合;利用所述子特征向量集合中的有标记数据的子特征向量对预设分类模型进行训练,得到所述子特征向量集合对应的初始分类器;利用子特征向量集合中的有标记数据的子特征向量和无标记数据的子特征向量,将得到的初始分类器进行协同训练,得到半监督分类器。2.根据权利要求1所述的方法,其特征在于,所述将特征向量集合对应的特征集划分为多个子特征集,包括:获取各个特征对类别的贡献度,所述类别为有标记数据被标记出的类别;基于所述贡献度,将所述特征向量集合对应的特征集划分为多个子特征集。3.根据权利要求2所述的方法,其特征在于,所述特征对类别的贡献度,包括:与有标记数据被标记的类别对应的特征权重;或者,与有标记数据被标记的所有类别对应的特征得分,所述特征得分用于表征,特征与所有有标记数据被标记为所属类别这一结果的关联度,以及特征与其它特征之间的关联度。4.根据权利要求3所述的方法,其特征在于,所述获取各个特征对类别的贡献度,包括:若所述特征集中特征的数量大于或等于预设阈值,获取各个特征对类别的第一贡献度,所述第一贡献度为,与有标记数据被标记的类别对应的特征权重;若所述特征集中特征的数量小于所述预设阈值,获取各个特征对类别的第二贡献度,所述第二贡献度为,与有标记数据被标记的所有类别对应的特征得分。5.根据权利要求2所述的方法,其特征在于,所述基于所述贡献度,将所述特征向量集合对应的特征集划分为多个子特征集,包括:按照贡献度所对应的类别,利用所述特征集中的特征构建分别与每个类别对应的特征序列,所述特征序列中的特征按照贡献...

【专利技术属性】
技术研发人员:邹荣珠
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1