一种多标签分类方法及装置制造方法及图纸

技术编号:11439630 阅读:55 留言:0更新日期:2015-05-13 09:06
本发明专利技术提供了一种多标签分类方法及装置,该方法包括:A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;A2:按照标签顺序对每个标签对应的分类器进行排序;A3:通过排序后的分类器对待分类数据进行分类。本发明专利技术提供的一种多标签分类方法及装置,能够提高多标签分类的正确率。

【技术实现步骤摘要】
一种多标签分类方法及装置
本专利技术涉及数据处理
,特别涉及一种多标签分类方法及装置。
技术介绍
在大数据挖掘领域,分类问题占有很大比例。在待分类对象具有明确的、单一的语义时,现有的分类算法已经比较成熟。然而,在很多分类问题中,一个样例可能同时具有多个不同的标签,这类问题称为多标签分类问题。例如,一个网页可能同时拥有多个主题,一篇专利可能归属于多个领域。现有的多标签分类方法中,从标签的相关性出发处理多标签分类问题,将前面的单标签分类的结果添加到样例的属性中,为后面的多标签分类提供信息。现有技术中,标签的信息是顺序传递的,前面的分类结果的好坏将对后面分类造成很大影响。而现有技术中并不能保证前面的分类结果的正确率,导致整个分类结果的正确率较低。
技术实现思路
有鉴于此,本专利技术提供了一种多标签分类方法及装置,能够提高多标签分类的正确率。一方面,本专利技术提供了一种多标签分类方法,包括:A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;A2:按照标签顺序对每个标签对应的分类器进行排序;A3:通过排序后的分类器对待分类数据进行分类。进一步地,所述A1,包括:S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类;S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;S3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率;S4:记录划分正确率最大的标签;S5:判断未记录的标签的数量是否为1,如果是,则执行步骤S7,否则,执行步骤S6;S6:将当前记录的标签添加到训练样本的属性中,返回S1;S7:记录最后一个标签,按照记录的先后顺序给标签排序。进一步地,所述S3,包括:按照公式一计算每个标签的划分正确率,其中,公式一为:ci=(|Si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,ti0为标签i对应的第四数量,n为样本的总量。另一方面,本专利技术提供了一种多标签分类装置,包括:包括;S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类;S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;S3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率;S4:记录划分正确率最大的标签;S5:判断未记录的标签的数量是否为1,如果是,则执行步骤S7,否则,执行步骤S6;S6:将当前记录的标签添加到训练样本的属性中,返回S1;S7:记录最后一个标签,按照记录的先后顺序给标签排序;排序单元,用于对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;训练单元,用于按照标签顺序对每个标签对应的分类器进行排序;分类单元,用于通过排序后的分类器对待分类数据进行分类。进一步地,所述排序单元,包括:聚类子单元,用于根据训练样本的属性将所有训练样本聚类为第一类和第二类;第一计算子单元,用于分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;第二计算子单元,用于根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率;记录子单元,用于记录划分正确率最大的标签;判断子单元,用于判断未记录的标签的数量是否为1,当判断结果为是时,通知排序子单元,当判断结果为否时,,执行步骤S6;添加子单元,用于将当前记录的标签添加到训练样本的属性中,通知所述聚类子单元;排序子单元,用于记录最后一个标签,按照记录的先后顺序给标签排序。进一步地,所述第二计算子单元,用于按照公式一计算每个标签的划分正确率,其中,公式一为:ci=(|si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,ti0为标签i对应的第四数量,n为样本的总量。通过本专利技术实施例提供的一种多标签分类方法及装置,根据训练样本对应的标签的划分正确率对标签进行排序,按照标签顺序对每个标签对应的分类器进行排序,这样能够保证前面分类器的分类结果的正确率较高,从而保障标签信息能够在最大程度上正确的向后传递,提高了多标签分类的正确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种多标签分类方法的流程图;图2是本专利技术一实施例提供的另一种多标签分类方法的流程图图3是本专利技术一实施例提供的一种多标签分类装置的示意图;图4是本专利技术一实施例提供的另一种多标签分类装置的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种多标签分类方法,该方法可以包括以下步骤:A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;A2:按照标签顺序对每个标签对应的分类器进行排序;A3:通过排序后的分类器对待分类数据进行分类。通过本专利技术实施例提供的一种多标签分类方法,根据训练样本对应的标签的划分正确率对标签进行排序,按照标签顺序对每个标签对应的分类器进行排序,这样能够保证前面分类器的分类结果的正确率较高,从而保障标签信息能够在最大程度上正确的向后传递,提高了多标签分类的正确率。在一种可能的实现方式中,所述A1,包括:S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类;S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;S3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率;S4:记录划分正确率最大的标签;S5:判断未记录的标签的数量是否为1,如果是,则执行步骤S7,否则,执行步骤S6;S6:将当前记录的标签添加到训练样本的属性中,返回S1;S7:记录最后一个标签,按照记录的先后顺序给标签排序。其中,所述S3,包括:按照公式一计算每个标签的划分正确率,其中,公式一为:ci=(|Si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,本文档来自技高网...
一种多标签分类方法及装置

【技术保护点】
一种多标签分类方法,其特征在于,包括:A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序;A2:按照标签顺序对每个标签对应的分类器进行排序;A3:通过排序后的分类器对待分类数据进行分类。

【技术特征摘要】
1.一种多标签分类方法,其特征在于,包括:A1:对训练样本进行聚类,并根据聚类后每个训练样本对应的标签的划分正确率对标签进行排序,A1包括:S1:根据训练样本的属性将所有训练样本聚类为第一类和第二类;S2:分别计算未记录的每个标签对应的训练样本在第一类中的第一数量和在第二类中的第二数量,以及第一类中其他训练样本的第三数量和第二类中其他训练样本的第四数量;S3:根据每个标签对应的第一数量、第二数量、第三数量和第四数量,计算每个标签的划分正确率,S3包括:按照公式一计算每个标签的划分正确率,其中,公式一为:ci=(|si0-ti0|+|si1-ti1|)/n×100%,ci为标签i的划分正确率,si1为标签i对应的第一数量,ti1为标签i对应的第二数量,si0为标签i对应的第三数量,ti0为标签i对应的第四数量,n为样本的总量;S4:记录划分正确率最大的标签;S5:判断未记录的标签的数量是否为1,如果是,则执行步骤S7,否则,执行步骤S6;S6:将当前记录的标签添加到训练样本的属性中,返回S1;S7:记录最后一个标签,按照记录的先后顺序给标签排序;A2:按照标签顺序对每个标签对应的分类器进行排序;A3:通过排序后的分类器对待分类数据进行分类。2.一种多...

【专利技术属性】
技术研发人员:范莹于治楼梁华勇
申请(专利权)人:浪潮集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1