一种基于SVM主动学习的多标签分类控制方法技术

技术编号:6918327 阅读:515 留言:0更新日期:2012-04-11 18:40
一种基于SVM主动学习的多标签分类控制方法,包括以下步骤:1)选择样本,过程如下:首先确定两条边界线之间的距离,对每个未知样本计算其决策值,计算每个样本所对应的后验概率值,包括正类的概率和负类的概率;根据期望间隔公式计算期望间隔的大小;对某个特定的未知样本,计算其期望间隔;确定好样本选择标准后,使用如下公式来选择最有价值的样本:2)确定样本后进行分类,未带类别标注的候选样本集U;带类别标注的测试集L;每次从U中选取固定的样本数;主动学习循环的次数。本发明专利技术计算速度快、模型合理、主动学习效果较好。

【技术实现步骤摘要】

本专利技术涉及一种多标签分类方法。
技术介绍
信息时代的到来,使得大量信息开始以计算机可读的形式存在,并且数量急剧增加。但是这些信息鱼龙混杂,很多有意义的数据都被大量的垃圾信息所淹没,如何从这些信息中自动分类出有用的信息将是一个重要的课题。在传统的分类问题中,都是假定一个样本只属于一个类标签。但是由于客观事物本身的复杂性,一个样本可以同时拥有多个标签。在所有的多标签学习框架中,每个样本与一个标签集合相关联,多标签学习的任务就是要为未知样本预测其标签集,且标签集的大小是未知的。监督的学习方法在分类领域得到了广泛的应用,但要想在这种方法下得到一个比较满意的分类模型则需要大量的训练数据。而构造多标签训练样本集则需要耗费领域专家巨大的工作量。同时,训练样本过多将使得学习过程变慢,甚至变得难以接受,而主动学习能有效的克服这两个瓶颈。它根据现有的分类模型,采用某种样本选择策略,迭代的选择一些最有价值的样本进行标记,能最快的改进现有模型的分类性能。支持向量机(SVM Support Vector Machine)是在上世纪90年代以来逐渐被人们广泛应用的一种统计学习方法,是一种基于统计学习理论的新型的分类技术。支持向量机最突出的优点在于它强大的推广能力,在解决小样本、非线性和高维等模式识别问题中表现出许多特有的优势,是一种可以进行累积学习的学习模型。目前,关于SVM主动学习的多标签分类技术还比较少,主要关注点还停留在单标签的主动学习上。据了解,国内最新且最有价值的关于多标签的研究就是杨碧姗的文章,先估计样本在每个标签上的后验概率并排序,接着利用逻辑回归预测标签的数目,然后近似的确定样本标签,据此来构造损失函数并作为样本的选择策略。而国内其他文章几乎都是针对多类的研究。比如袁勋等利用每个类别的后验概率构造样本置信度,以此作为样本选择依据,宋鑫颖等通过减少非支持向量来保证训练速度。国外最早使用SVM方法来解决多标签主动学习的是Xuchim Li,他利用在相邻两个循环中期望损失下降的程度作为分类器改进的标志。使用了最大平均损失值和最大损失值两种计算方法。Brinker利用的选择策略是依据所有二分类支持向量机的输出绝对值的最小值,以期能够最大限度的约简版本空间。由于不同的分类器间输出的值不具有直接可比性,所以Mohan Singh等提出了一种利用后验概率来选择样本的方法。
技术实现思路
为了克服已有的多标签分类方法的计算速度较慢、主动学习效果较差的不足,本专利技术提供一种计算速度快、模型合理、主动学习效果较好的基于SVM主动学习的多标签分类控制方法。本专利技术解决其技术问题所采用的技术方案是一种基于SVM主动学习的多标签分类控制方法,所述多标签分类控制方法包括以下步骤1)选择样本,过程如下1. 1)首先确定两条边界线之间的距离在高维空间中的分类间隔;1. 2)对每个未知样本计算其决策值将未知样本代入分类器,计算在高维空间中离分隔线间的距离;1. 3)计算每个样本所对应的后验概率值,包括正类的概率和负类的概率,分别表示为 P(y = Ι|χ)和 P(y = -Ι|χ);1.4)根据期望间隔公式计算期望间隔的大小,若样本估计为正类时,则对应的间隔为Margin+ + /(χ),若样本估计为负类的时候,则对应的间隔为,. .-Margin Margin ^---f(x).1.5)对某个特定的未知样本,其对应的期望间隔由下述公式计算得到& = Margin+*P (y = 11 χ) +Margin>P (y = -11 χ);1. 6)确定好样本选择标准后,使用如下公式来选择最有价值的样本晋瓜/风.1^.^)(1);2)确定样本后,设定未带类别标注的候选样本集U、带类别标注的测试集L、每次从U中选取固定的样本数和主动学习循环的次数,分类过程如下2. 1)从候选样本集U中选择η个样本并正确标注其类标号,构造初始训练样本集 Τ,保证T中每个类别各有一个样本;2. 2)根据训练集Τ,构造SVM分类器f ;2. 3)对U中所有样本使用当前分类器f进行计算,求得其决策值;2. 4)依据f值和sigmoid函数求得样本属于正类和负类的后验概率值;2. 5)根据后验概率和决策值,利用期望间隔公式求得期望间隔的大小;2. 6)依据公式(1)的标准从样本集U中选择额定数目的样本;2. 7)将步骤2. 6)所选择的样本集正确标注后加入到训练集T中,同时从U中舍去此样本集;2. 8)若检测循环达到预定次数时,分类终止,并返回分类器f,否则重复步骤 2. 2)。本专利技术的技术构思为基于SVM分类器的构建就是寻求最大化分类间隔,因此在样本较少的情况下自然会使得样本间的间隔扩大化了,而且会远远大于实际间隔,从而导致了分类器在预测过程中会做出错误的判断。我们需要找到某种方法来尽快的缩减样本间的间隔大小。为此本专利技术提出了一种基于期望间隔大小选择策略的主动学习方法,依据当前样本集,能够迅速的缩小分类间隔,以求尽快的提高分类性能。根据附图说明图1,我们对本专利技术的原理进行阐述当所选择的未知样本为正类的时候(图中空心圆),超平面将会向负类方向移动,由原支持向量所确定的分类间隔的正边界线可以由图1中的f(X) = 1近似为到 f' (x) = 1,超平面也由Sl近似成S2,而负边线的位置却不会有太大的改变,由此分类间隔可近似为权利要求1. 一种基于SVM主动学习的多标签分类控制方法,其特征在于所述多标签分类控制方法包括以下步骤(1)选择样本,过程如下(1.1)首先确定两条边界线之间的距离在高维空间中的分类间隔; 1. 2)对每个未知样本计算其决策值将未知样本代入分类器,计算在高维空间中离分隔线间的距离;(1.3)计算每个样本所对应的后验概率值,包括正类的概率和负类的概率,分别表示为 P(y = Ι|χ)和 P(y = -l|x);(1.4)根据期望间隔公式计算期望间隔的大小,若样本估计为正类时,则对应的间隔为Margin+ + /(χ),若样本估计为负类的时候,则对应的间隔为全文摘要一种基于SVM主动学习的多标签分类控制方法,包括以下步骤1)选择样本,过程如下首先确定两条边界线之间的距离,对每个未知样本计算其决策值,计算每个样本所对应的后验概率值,包括正类的概率和负类的概率;根据期望间隔公式计算期望间隔的大小;对某个特定的未知样本,计算其期望间隔;确定好样本选择标准后,使用如下公式来选择最有价值的样本2)确定样本后进行分类,未带类别标注的候选样本集U;带类别标注的测试集L;每次从U中选取固定的样本数;主动学习循环的次数。本专利技术计算速度快、模型合理、主动学习效果较好。文档编号G06K9/62GK102270192SQ20111021178公开日2011年12月7日 申请日期2011年7月27日 优先权日2011年7月27日专利技术者何熊熊, 刘端阳, 邱卫杰 申请人:浙江工业大学本文档来自技高网
...

【技术保护点】
1.一种基于SVM主动学习的多标签分类控制方法,其特征在于:所述多标签分类控制方法包括以下步骤:1)选择样本,过程如下:1.1)首先确定两条边界线之间的距离:在高维空间中的分类间隔;1.2)对每个未知样本计算其决策值:将未知样本代入分类器,计算在高维空间中离分隔线间的距离;1.3)计算每个样本所对应的后验概率值,包括正类的概率和负类的概率,分别表示为P(y=1|x)和P(y=-1|x);1.4)根据期望间隔公式计算期望间隔的大小,若样本估计为正类时,则对应的间隔为:(math)??(mrow)?(msup)?(mrow)?(mi)M(/mi)?(mi)arg(/mi)?(mi)in(/mi)?(/mrow)?(mo)+(/mo)?(/msup)?(mo)≈(/mo)?(mfrac)?(mrow)?(mi)M(/mi)?(mi)arg(/mi)?(mi)in(/mi)?(/mrow)?(mn)2(/mn)?(/mfrac)?(mo)+(/mo)?(mi)f(/mi)?(mrow)?(mo)((/mo)?(mi)x(/mi)?(mo))(/mo)?(/mrow)?(mo),(/mo)?(/mrow)?(/math)若样本估计为负类的时候,则对应的间隔为(math)??(mrow)?(msup)?(mrow)?(mi)M(/mi)?(mi)arg(/mi)?(mi)in(/mi)?(/mrow)?(mo)-(/mo)?(/msup)?(mo)≈(/mo)?(mfrac)?(mrow)?(mi)M(/mi)?(mi)arg(/mi)?(mi)in(/mi)?(/mrow)?(mn)2(/mn)?(/mfrac)?(mo)-(/mo)?(mi)f(/mi)?(mrow)?(mo)((/mo)?(mi)x(/mi)?(mo))(/mo)?(/mrow)?(mo);(/mo)?(/mrow)?(/math)1.5)对某个特定的未知样本,其对应的期望间隔由下述公式计算得到EM=Margin+*P(y=1|x)+Margin-*P(y=-1|x);1.6)确定好样本选择标准后,使用如下公式来选择最有价值的样本:(math)??(mrow)?(munder)?(mi)min(/mi)?(mrow)?(mi)i(/mi)?(mo)=(/mo)?(mn)1(/mn)?(mo),(/mo)?(mo).(/mo)?(mo).(/mo)?(mo).(/mo)?(mo),(/mo)?(mi)l(/mi)?(/mrow)?(/munder)?(mrow)?(mo)((/mo)?(munder)?(mi)min(/mi)?(mrow)?(mi)j(/mi)?(mo)=(/mo)?(mn)1(/mn)?(mo),(/mo)?(mo).(/mo)?(mo).(/mo)?(mo).(/mo)?(mo),(/mo)?(mi)n(/mi)?(mrow)?(mo)((/mo)?(mi)n(/mi)?(mo)-(/mo)?(mn)1(/mn)?(mo))(/mo)?(/mrow)?(mo)/(/mo)?(mn)2(/mn)?(/mrow)?(/munder)?(msub)?(mi)E(/mi)?(mi)M(/mi)?(/msub)?(mo))(/mo)?(/mrow)?(mo)-(/mo)?(mo)-(/mo)?(mo)-(/mo)?(mrow)?(mo)((/mo)?(mn)1(/mn)?(mo))(/mo)?(/mrow)?(mo);(/mo)?(/mrow)?(/math)2)确定样本后,设定未带类别标注的候选样本集U、带类别标注的测试集L、每次从U中选取固定的样本数和主动学习循环的次数,分类过程如下:2.1)从候选样本集U中选择n个样本并正确标注其类标号,构造初始训练样本集T,保证T中每个类别各有一个样本;2.2)根据训练集T,构造SVM分类器f;2.3)对U中所有样本使用当前分类器f进行计算,求得其决策值;2.4)依据f值和sigmoid函数求得样本属于正类和负类的后验概率值;2.5)根据后验概率和决策值,利用期望间隔公式求得期望间隔的大小;2.6)依据公式(1)的标准从样本集U中选择额定数目的样本;2.7)将步骤2.6)所选择的样本集正确标注后加入到训练集T中,同时从U中舍去此样本集;2.8)若检测循环达到预定次数时,分类终止,并返回分类器f,否则重复步骤2.2)。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘端阳邱卫杰何熊熊
申请(专利权)人:浙江工业大学
类型:发明
国别省市:86

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1