一种多标签分类方法及其装置制造方法及图纸

技术编号:12029317 阅读:322 留言:0更新日期:2015-09-10 15:11
本发明专利技术公开了一种多标签分类方法及相应装置,该方法利用问题转换算法将多标签分类问题转换成多个单标签分类问题;对于每个待预测的未标签实例X*,计算第j个预测实数值j=1,…,q,q为标签向量的维数;判断每个待预测标签实例X*的第j个预测实数值所属类别;综合所有单标签完成多标签分类。本发明专利技术提出的多标签分类方法通过特定的技术手段,将待预测样本标签进行标记,结果为与已知训练样本的距离最接近的标签,而无需计算每个样本之间的距离,运算效率高于ML-KNN,可以应用于大数据处理,可应用于生物信息、文本分类和音乐分类等多标签分类中。

【技术实现步骤摘要】

本专利技术涉及机器学习、模式识别和数据挖掘,特别涉及一种多标签分类方法及其 相应装置。
技术介绍
多标签最先应用在自动文档分类。随着最近一些年海量数字信息的出现,人们迫 切需要开发出自动方法来对这些内容进行自动注释。比如,Irieetal.提出了用于电影情 感场景(movieaffectivescene)多标签分类方法,Suetal.给出一种方法叫图像-概 念分布模型注释方法(annotationbyImage-to-ConceptDistributionModel,AICDM)用 于图像注释,而Loetal.记录标签次数作为代价,将声音标记问题转变成代价敏感分类问 题(cost-sensitiveclassificationproblem)。如今,除了自动内容注释,多标签学习应 用到许多其他领域,包括生物信息,网络挖掘,图像等。 解剖治疗化学(AnatomicalTherapeuticChemical,ATC)分类系统是著名的,被 世界健康组织(theWorldHealth0rganization,WH0)推荐的药物分类系统。识别药物的 ATC分类是一个重要的课题,它有助于对药物的开发和利用。现有的药物ATC分类系统仅仅 是用于药物的单标签(single-label,单标记)分类。单标签分类学习是从一个只属于一个 标签I的样本集合中学习,其中每一个标签属于一个互斥的标签集合L(|L| >1)。在多标 签(多标记,multi-label)分类中,每个样本属于一个L样本集合的一个子集。 多标签(multi-label)分类器给一个新的实例指定多个类别。这个分类模型有很 广泛的实际应用,如:一个新闻文档可能同时涉及多个主题,如音乐、运动和奥林匹克竞赛; 一个蛋白质可能具有多个功能,如Geminin是一种定位于核内的蛋白质,它通过调节细胞 周期时相中的重要事件作用于细胞增殖:经多种途径参与DNA复制的调节;抑制中心体重 复复制;推进G2/M期和维持正常胞质分裂等。 定义1假设多标签分类任务,指定一个数据集D= {(xl,yl), . . . , (xn,yn)}XXY(1) 输入xieX和输出标签子集yieY。依附于每个输入的标签通常是指与输入项 相关的标签。有时,当输入空间是P维欧式空间(Euclideanspace)时,我们将学习任务表 示为一对矩阵的形式:D= (X,Y) (2) 公式中X= (xl,? ? ?,xn),Y= (yl,? ? ?,yn)。当标签j与实例i相关时,其中Y 中的元素yij为1,否则为〇。多标签分类任务的目的就是要诱导以下假设。 定义2多标签假设是一个从输入空间到输出空间(即标签的幂集P(L))的映射函 数,表示如下: h:x-y=P(L) = {0,1}L (3) 所以,h(x)指对象x通过h关联的标签集。有时,我们用h(X) =Y表示为对输入 集(用矩阵X表示)的h预测是矩阵Y所表示的标签集。 过去几年,多标签学习已经成为机器学习领域一个热门话题,并且取得了相当 大的进步。Madjarovetal.将多标签学习归成三个类:(1)算法适应方法(Algorithm adaptationmethods),(II)问题车专换方法(Problemtransformationmethods)和(III) 集成方法(Ensemblemethods)。算法适应方法将一个已经存在的机器学习算法进行改进, 从而应用于多标签学习。ML-KNN,BPMLL和ML-C4. 5都是算法适应方法。问题变换方法将 多标签问题转换成一个或者多个单标签问题。最为人所熟知的问题转换方法是BR方法,分 类器链方法(ClassifierChainmethod,CC)和标签幕集方法(labelpower-setmethod, LP)等。集成方法包括分类器链的集成(ensemblesofclassifierchains,ECC),随机K标 签集(randomk_labelsets,RAKEL),修剪集(prunedsets,EPS),等。 传统的多标签分类方法计算效率低,不适合高维特征数据或者大数据,或者准确 性(Accuracy)比较低,限制了多标签分类方法在实际工作和生活中的应用。随着Internet技术和生物基因工程技术的发展,数字信息量如爆炸性地增长,大数据处理得到越来越多 的科研人员的关注。如何快速、准确地进行预测成为急需解决的问题,传统的多标签分类方 法计算效率低,不适合于大数据和高维特征数据,或者准确性(Accuracy)比较低,限制了 多标签分类方法在实际工作和生活中的应用,大部分多标签分类方法在学习效率和精确度 方面都不能同时满足这两个要求,而药物的ATC分类是典型的多标签分类问题。
技术实现思路
本专利技术提供一种新的多标签分类方法ML-GKR(Multi-labelGaussianKernel Regression),以解决传统多标签分类方法中计算效率低,不适合于大数据和高维特征数 据,或者准确性(Accuracy)比较低的问题。 为实现上述目的,本专利技术是通过以下技术方案来实现的: 本专利技术提供一种多标签分类方法,包括: 步骤1,利用问题转换算法将多标签分类问题转换成多个单标签分类问题; 步骤2,对于每个待预测的未标签实例X*,计算第j个预测实数值g>j= 1,…, q,q为标签向量的维数; 步骤3,判断每个待预测标签实例X*的第j个预测实数值7所属类别; 步骤4,综合所有单标签完成多标签分类。 进一步,步骤2中所述第j个预测实数值 其中9 |x*-XilI为两个向量X*和Xi之间的距离,已知一组训练 9 数据(Xi,yi),i= 1,…,N,Xi是第i个训练数据输入,yi是第i个训练数据的标签,b是 输入空间的长度尺度。 进一步,所述两个向量X,Xi之间的距离可以是欧氏距离、曼哈顿距离 (ManhattanDistance)或马氏距离(Mahalanobisdistances) 〇 进一步,对于每个待预测标签实例X*,第j个标签乂预测为: 进一步,如果X*属于类j,j= 1,…,q,否则,如果X*不属于 类j。 进一步,所述问题转换算法是BR(二元关联,Binaryrelevance)算法。 进一步,所述步骤1具体为:利用问题转换算法将药物的ATC分类问题转换成多个 ATC组别的单标签分类问题; 所述步骤2具体为:根据待分类药物的药物分子间交互特征、药物分子间相似特 征和药物分子指纹特征,计算第j个预测实数值gj= 1,…,q,q为ATC组别个数; 9 所述步骤3具体为,判断第j个预测实数值7所属类别; 所述步骤4具体为,综合所有组别的单标签完成药物的ATC分类。 进一步,所述步骤1具体为:利用问题转换算法将音乐的情感分类问题转换为多 个情感类别分类的单标签问题; 所述步骤2具体为:根据待分类的音乐的节奏特征和音色特征,计算第j个预测实 数值乃>j= 1,…,q,q为音乐情感的类别数; 所述步骤3具体为,判断第j个预测实数值$所属类别; 所述步骤4具体为,综合所有单标签完成音乐的情感分类。 本专利技术还提供一种多标签分类装置,包括:第一模块,用于利用问题转换算本文档来自技高网
...

【技术保护点】
一种多标签分类方法,其特征在于,所述方法包括:步骤1,利用问题转换算法将多标签分类问题转换成多个单标签分类问题;步骤2,对于每个待预测的未标签实例X*,计算第j个预测实数值j=1,…,q,q为标签向量的维数;步骤3,判断每个待预测标签实例X*的第j个预测实数值所属类别;步骤4,综合所有单标签完成多标签分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:程翔肖绚
申请(专利权)人:景德镇陶瓷学院
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1