当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多标签约束支持向量机的分类方法技术

技术编号:8366909 阅读:296 留言:0更新日期:2013-02-28 05:53
本发明专利技术实施例公开了一种基于多标签约束支持向量机的分类方法,包括以下步骤:首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点,并提出了多标签邻域相似度约束;最后,结合多标签邻域相似度约束和传统的支持向量机约束,提出一种新的多标签约束支持向量机分类器进行多标签分类训练。本发明专利技术用于通过多标签约束利用多标签空间中包含的信息来提高鉴别型分类器在多标签分类中的分类精度,降低噪声标签对分类的影响。

【技术实现步骤摘要】

本专利技术属于多标签
,特别地涉及一种。
技术介绍
随着信息时代的到来,多媒体数据已经实现了爆炸性的增长。标签,作为多媒体的内容形式之一,能帮助解决数据挖掘方面很多重要的现实应用,特别是在跨媒体领域,体现出非常重要的作用。例如,利用合适的标签作为图像注释的一部分,可以开发出强大的图像标注和图像检索技术;利用合适的标签作为电影评论的一部分,可以开发出有效的电影推荐系统;利用合适的标签作为网页标记的一部分,可以开发出更有效率的搜索引擎。标签的种类是多种多样的,由于数据量日新月异爆炸性的增长,仅仅依靠数据处·理人员对所有的数据手工加标签是不现实的。在这种前提下,社会标签就应运而生了。社会标签,又称合作标签,社会分类法,是一种让普通大众用户能将在线的数字资源和自己提供的标签做关联的方法,是由用户产生的、对网络内容进行组织和共享的自下而上的组织分类体系。在这里,普通民众都可以通过在线环境在相应的系统中为自己感兴趣的数字资源添加自己觉得合适的标签。正是基于这种特点,社会标签的结果往往是不准确的,包含有很多噪声,因为每一位参与社会标签的普通用户都不能排除自己的主观性,粗心大意,甚至是缺乏耐心去提供一个完美的标签。为了更好的利用社会标签为进一步的数据处理分析服务,必须尽可能的提高标签分类的准确度,降低噪声对标签分类的影响。同时,由于标签的种类是多种多样的,因此,多标签抗噪分类器应运而生,并且有着非常广阔的应用前景和非常重要的实用价值。传统的鉴别型分类器应用到多标签分类问题中时,一般将多标签问题转化为一对多(One Vs All)的分类模式,即把多标签分类问题转化为多个二分类问题。传统的鉴别型分类器在这个转化过程中并没有用到多标签空间中所包含的信息。而实际上,数据被标上的标签越多,标签空间中包含的信息也就越多,这些信息可以被利用起来。当判断数据点是否应该标上某个标签时,该数据点已有的其他标签会对判断起到一定的帮助作用。例如,当一幅包含动物的图像已有的标签为天空,云,草地,树木的时候,它更可能被标上的标签是鸟而不是鱼;而当一幅包含动物的图像已有的标签为水,水草,大海,珊瑚的时候,它更有可能被标上的标签是鱼而不是鸟。多标签空间中包含的信息在某种程度上可以帮助我们更好的进行分类,降低噪声对分类的影响。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种,用于通过多标签约束利用多标签空间中包含的信息来提高鉴别型分类器在多标签分类中的分类精度,降低噪声标签对分类的影响。为实现上述目的,本专利技术的技术方案为—种,包括以下步骤首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,所述新型的距离度量方法为将多标签训练集表示为J,多标签训练集中的每个点都被标上了多种多样的标签,整个多标签训练集的标签字典组成了 s维的多标签空间*T5多标签训练集中的每个点厶€ J在视角F中的特征向量表示为Xi,在标签字典中的标签向量表示为Φ = ((IiajClij2,. . . ,dijS);,其中{0,1},l^r^S表示字典中的第r个标签I;是否在Ii中出现,同时用r表示Ii的分类标签,y^ = 2*d^-l。在多标签一对多(One Vs All)的分类模式中,当一个标签I;被作为分类目标时,标签字典中其余的标签就会组成一个S-I维的标签特征空间厶,用表示Ii在空间《Cr中的特征向量,ti>r = (dia,…,(Iijrt, dijr+1,…,U ',定义〒r== U // £ Τ, Γ € {I, 2,. .., 5 }),当给定 dijk = Oorl 时,dijr =Oorl的条件概率如下所示权利要求1 .一种,其特征在于,包括以下步骤 首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,所述新型的距离度量方法为将多标签训练集表示为J,多标签训练集中的每个点fie J都被标上了多种多样的&夂整个多标签训练集的标签字典组成了 s维的多标签空间孓,多标签训练集中的每个/ I1^ Γ在视角!F中的特征向量表示为Xi,在标签字典中的标签向量表示为di = (du,屯,2,...,U ',其中Cli^e {0,1},l^r^S表示字典中的第r个标签I;是否在Ii中出现,同时用lu r表示Ii的分类标签,Yijr = 2 ·屯,厂1,在多标签一对多One Vs All的分类模式中,当一个标签I;被作为分类目标时,标签字典中其余的标签就会组成一个S-I维的标签特征空间·£r,用表示Ii在空间Xr中的特征向量,tijr = (dia, . . . , (Iijrt, dijr+1, . . . , Ο ', 定乂*Vf —1}( ε jTjF ε {lf2 ... ),当给定(Ii, k = OorI 时,Cli, r =Oorl的条件概率如下所示全文摘要本专利技术实施例公开了一种,包括以下步骤首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点,并提出了多标签邻域相似度约束;最后,结合多标签邻域相似度约束和传统的支持向量机约束,提出一种新的多标签约束支持向量机分类器进行多标签分类训练。本专利技术用于通过多标签约束利用多标签空间中包含的信息来提高鉴别型分类器在多标签分类中的分类精度,降低噪声标签对分类的影响。文档编号G06K9/62GK102945372SQ20121039856公开日2013年2月27日 申请日期2012年10月18日 优先权日2012年10月18日专利技术者祁仲昂, 杨名, 张仲非, 张正友 申请人:浙江大学本文档来自技高网
...

【技术保护点】
一种基于多标签约束支持向量机的分类方法,其特征在于,包括以下步骤:首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,所述新型的距离度量方法为:将多标签训练集表示为多标签训练集中的每个点都被标上了多种多样的标签,整个多标签训练集的标签字典组成了S维的多标签空间多标签训练集中的每个点在视角中的特征向量表示为xi,在标签字典中的标签向量表示为di=(di,1,di,2,...,di,S)′,其中di,r∈{0,1},1≤r≤S表示字典中的第r个标签Tr是否在Ii中出现,同时用yi,r表示Ii的分类标签,yi,r=2·di,r?1,在多标签一对多One?Vs?All的分类模式中,当一个标签Tr被作为分类目标时,标签字典中其余的标签就会组成一个S?1维的标签特征空间用ti,r表示Ii在空间中的特征向量,ti,r=(di,1,...,di,r?1,di,r+1,...,di,s)′,定义当给定di,k=0or1时,di,r=0or1的条件概率如下所示:P10=ΔP(di,r=1|di,k=0)=1-P00P01=ΔP(di,r=0|di,k=1)=1-P11将每一个标签Tr的关联度向量标记为gr,gr=(gr,1,...,gr,r?1,gr,r+1,...,gr,S)′;向量的每一个元素表示标签Tr与其他标签的关联度;关联度元素gr,k(k∈{1,...,r?1,r+1,...,S})的定义如下式所示:gr,k=P00·P11+P10·P01,将样本点在空间中的特征向量与每一个标签Tr关联度向量结合起来,得到多标签空间中一种新型的距离度量方法的定义如下式所示:disr(Ii,Ij)=||(ti,r?tj,r)⊙gr||p,其中⊙表示向量之间的阿达马Hadamard乘积;然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点 的邻域包含在新型的距离度量方法下离中心点最近的几个点,并提出了多标签邻域相似度约束,所述的邻域以及多标签邻域相似度约束的建立方法为:Ii在空间中用这种新型距离度量方法定义的邻域,不包括Ii自己,表示为Ii和其邻域中数据点的分类结果相似度高,和非邻域数据点的分类结果相似度低,邻域的大小u表示Ii在空间中的最邻近的邻居点的个数,所述多标签约束支持向量机通过添加多标签空间邻域相似度约束来最小化每一个点和其在多标签空间中最邻近的邻居点的分类结果之间的差异,该约束如下所示:且|wTxi?wTxj|≤ηij,ηij≥0;其中w是多标签约束支持向量机分类器的系数;最后,结合多标签邻域相似度约束和传统的支持向量机约束,提出一种新的多标签约束支持向量机分类器进行多标签分类训练,所述新的多标签约束支持向量机分类器的建立方法为:结合上述多标签约束条件和传统的支持向量机约束条件,整合到多标签约束支持向量机的优化式中,优化式如下所示:minw=12||w||2+CΣi=1nξi+Σi=1nΣj∈NirC*edisr(Ii,Ij)·ηijs.t.∀i=1n:yi,r(wTxi+b^)≥1-ξi,ξi≥0且|wTxi?wTxj|≤ηij,ηij≥0其中分别是多标签约束支持向量机分类器的系数和偏置,C和C*是常数,且C*<C,ξi是松弛变量。FDA00002270826600011.jpg,FDA00002270826600012.jpg,FDA00002270826600013.jpg,FDA00002270826600014.jpg,FDA00002270826600015.jpg,FDA00002270826600016.jpg,FDA00002270826600017.jpg,FDA00002270826600018.jpg,FDA00002270826600019.jpg,FDA000022708266000110.jpg,FDA000022708266000111.jpg,FDA000022708266000114.jpg,FDA00002270826600021.jpg,FDA00002270826600022.jpg,FDA00002270826600023.jpg,FDA00002270826600024.jpg,FDA00002270826600025.jpg,FDA00002270826600026.jpg,F...

【技术特征摘要】

【专利技术属性】
技术研发人员:祁仲昂杨名张仲非张正友
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1