一种多标签分类方法及装置制造方法及图纸

技术编号：11439630 阅读：55 留言：0更新日期：2015-05-13 09:06

本发明专利技术提供了一种多标签分类方法及装置，该方法包括：A1：对训练样本进行聚类，并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序；A2：按照标签顺序对每个标签对应的分类器进行排序；A3：通过排序后的分类器对待分类数据进行分类。本发明专利技术提供的一种多标签分类方法及装置，能够提高多标签分类的正确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种多标签分类方法及装置
本专利技术涉及数据处理
，特别涉及一种多标签分类方法及装置。
技术介绍
在大数据挖掘领域，分类问题占有很大比例。在待分类对象具有明确的、单一的语义时，现有的分类算法已经比较成熟。然而，在很多分类问题中，一个样例可能同时具有多个不同的标签，这类问题称为多标签分类问题。例如，一个网页可能同时拥有多个主题，一篇专利可能归属于多个领域。现有的多标签分类方法中，从标签的相关性出发处理多标签分类问题，将前面的单标签分类的结果添加到样例的属性中，为后面的多标签分类提供信息。现有技术中，标签的信息是顺序传递的，前面的分类结果的好坏将对后面分类造成很大影响。而现有技术中并不能保证前面的分类结果的正确率，导致整个分类结果的正确率较低。
技术实现思路
有鉴于此，本专利技术提供了一种多标签分类方法及装置，能够提高多标签分类的正确率。一方面，本专利技术提供了一种多标签分类方法，包括：A1：对训练样本进行聚类，并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序；A2：按照标签顺序对每个标签对应的分类器进行排序；A3：通过排序后的分类器对待分类数据进行分类。进一步地，所述A1，包括：S1：根据训练样本的属性将所有训练样本聚类为第一类和第二类；S2：分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量，以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量；S3：根据每个标签对应的第一数量、第二数量、第三数量和第四数量，计算每个标签的划分正确率；S4：记录划分正确率最大的标签；S5：判断未记录的标签的数量是否为...
一种多标签分类方法及装置

【技术保护点】
一种多标签分类方法，其特征在于，包括：A1：对训练样本进行聚类，并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序；A2：按照标签顺序对每个标签对应的分类器进行排序；A3：通过排序后的分类器对待分类数据进行分类。

【技术特征摘要】
1.一种多标签分类方法，其特征在于，包括：A1：对训练样本进行聚类，并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序,A1包括：S1：根据训练样本的属性将所有训练样本聚类为第一类和第二类；S2：分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量，以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量；S3：根据每个标签对应的第一数量、第二数量、第三数量和第四数量，计算每个标签的划分正确率,S3包括：按照公式一计算每个标签的划分正确率，其中，公式一为：ci＝(|si0-ti0|+|si1-ti1|)/n×100％，ci为标签i的划分正确率，si1为标签i对应的第一数量，ti1为标签i对应的第二数量，si0为标签i对应的第三数量，ti0为标签i对应的第四数量，n为样本的总量；S4：记录划分正确率最大的标签；S5：判断未记录的标签的数量是否为1，如果是，则执行步骤S7，否则，执行步骤S6；S6：将当前记录的标签添加到训练样本的属性中，返回S1；S7：记录最后一个标签，按照记录的先后顺序给标签排序；A2：按照标签顺序对每个标签对应的分类器进行排序；A3：通过排序后的分类器对待分类数据进行分类。2.一种多...

【专利技术属性】
技术研发人员：范莹，于治楼，梁华勇，
申请(专利权)人：浪潮集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人