当前位置: 首页 > 专利查询>浙江大学专利>正文

基于多标签二视角支持向量机的分类方法技术

技术编号:8366907 阅读:322 留言:0更新日期:2013-02-28 05:52
本发明专利技术实施例公开了一种基于多标签二视角支持向量机的分类方法,包括以下步骤:首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;然后,在两个相互条件独立的视角上提取训练集的两组特征,结合利用二视角所包含的两组特征的互补信息;最后,结合多标签空间和二视角空间中的信息,利用定义的一种新的多标签二视角支持向量机分类器进行多标签分类训练。本发明专利技术用于采用鉴别型分类器结合利用标签空间中所包含的信息和多视角中的信息处理多标签分类问题,对训练集标签进行降噪的同时,得到一种更准确的分类方法。

【技术实现步骤摘要】

本专利技术属于标签
,特别地涉及一种。
技术介绍
随着信息时代的到来,多媒体数据已经实现了爆炸性的增长。标签,作为多媒体的内容形式之一,能帮助解决数据挖掘方面很多重要的现实应用,特别是在跨媒体领域,体现出非常重要的作用。例如,利用合适的标签作为图像注释的一部分,可以开发出强大的图像标注和图像检索技术;利用合适的标签作为电影评论的一部分,可以开发出有效的电影推荐系统;利用合适的标签作为网页标记的一部分,可以开发出更有效率的搜索引擎。 标签的种类是多种多样的,由于数据量日新月异爆炸性的增长,仅仅依靠数据处理人员对所有的数据手工加标签是不现实的。在这种前提下,社会标签就应运而生了。社会标签,又称合作标签,社会分类法,是一种让普通大众用户能将在线的数字资源和自己提供的标签做关联的方法,是由用户产生的、对网络内容进行组织和共享的自下而上的组织分类体系。在这里,普通民众都可以通过在线环境在相应的系统中为自己感兴趣的数字资源添加自己觉得合适的标签。正是基于这种特点,社会标签的结果往往是不准确的,包含有很多噪声,因为每一位参与社会标签的普通用户都不能排除自己的主观性,粗心大意,甚至是缺乏耐心去提供一个完美的标签。为了更好的利用社会标签为进一步的数据处理分析服务,必须尽可能的提高标签分类的准确度,降低噪声对标签分类的影响。同时,由于标签的种类是多种多样的,因此,多标签抗噪分类器应运而生,并且有着非常广阔的应用前景和非常重要的实用价值。传统的鉴别型分类器应用到多标签分类问题中时,一般将多标签问题转化为一对多(One Vs All)的分类模式,即把多标签分类问题转化为多个二分类问题。传统的鉴别型分类器在这个转化过程中并没有用到多标签空间中所包含的信息。而实际上,数据被标上的标签越多,标签空间中包含的信息也就越多,这些信息可以被利用起来。当判断数据点是否应该标上某个标签时,该数据点已有的其他标签会对判断起到一定的帮助作用。例如,当一幅包含动物的图像已有的标签为天空,云,草地,树木的时候,它更可能被标上的标签是鸟而不是鱼;而当一幅包含动物的图像已有的标签为水,水草,大海,珊瑚的时候,它更有可能被标上的标签是鱼而不是鸟。多标签空间中包含的信息在某种程度上可以帮助我们更好的进行分类,降低噪声对分类的影响。随着获取数据的终端的多样化,数据一般都拥有多视角的特征,尤其是在多媒体领域,一个事件会被文本,图像,声音,视频等多个视角进行记录和描述。即使是只有一种媒体,也可以把该媒体的多个相互条件独立的特征看作为多视角的特征。例如图像,可以从纹理,颜色,区域形状等多个视角进行分析。多个视角类似于多个独立的历史学家对于同一个历史事件的记录,尽管在这些记录中存在着一定的重叠部分,但是这些记录中的非重叠部分却是最有价值的,能够帮助后人尽可能的系统性的恢复整个历史事件,甚至纠正单个历史学家关于该历史事件的一 些零星出现的主观性的错误描述。同样,利用多视角进行学习,也能帮助我们更好的进行分类,降低噪声对分类的影响,提高多标签分类的准确度。本专利技术提出的鉴别型分类器可以有效的结合利用标签空间中所包含的信息和多视角空间中的信息来提高多标签分类的准确度。因此,处理多标签分类问题的鉴别型分类器已经成为当前数据挖掘领域一个非常重要的研究方向。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种,用于采用鉴别型分类器结合利用标签空间中所包含的信息和多视角中的信息处理多标签分类问题,对训练集标签进行降噪的同时,得到一种更准确的分类方法。为实现上述目的,本专利技术的技术方案为一种,包括以下步骤首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,其中所述新型的距离度量方法为,将多标签训练集表示为J,所述多标签训练集的两个相互条件独立的视角空间分别表示为!Fa)和!Fw,所述多标签训练集中的每个点J都被标上了多种多样的标签,所述多标签训练集的标签字典组成了 s维的多标签空间7%所述多标签训练集中的每个点於e J在视角空间!T㈣和!Γ·中的特征向量分别表示为xf和xf,在标签字典中的标签向量表示为Cli = (d,,1; Cli,2,...,Cli, s)/,其中due {0,1},1彡r彡S表示标签字典中的第r个标签Tr是否在1中出现,同时用yi,!·表示Ii的分类标签,Yi, r = 2 · dij-l,在多标签一对多(One Vs All)的分类模式中,当一个标签I;被作为分类目标时,标签字典中其余的标签就会组成一个S-I维的标签特征空间I ,用表示Ii在空间厶中的特征向量,其中I = ((Iia, Cli^1, Cli, H )定义权利要求1. 一种,其特征在于,包括以下步骤 首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,其中所述新型的距离度量方法为,将多标签训练集表示为I,所述多标签训练集的两个相互条件独立的视角空间分别表示为!Ffe)和yw,所述多标签训练集中的每个点Aei"都被标上了多种多样的标签,所述多标签训练集的标签字典组成了 s维的多标签空间7",所述多标签训练集中的每个点J1- € J.在视角空间;和;中的特征向量分别表示为和5在标签字典中的标签向量表示为(Ii = (dia,dij2,. . . ,(Ii,s)',其中due {0,1},1彡r彡S表示标签字典中的第r个标签Tr是否在Ii中出现,同时用Yi j表示Ii的分类标签,yi,r = 2· du-1,在多标签一对多的分类模式中,当一个标签I;被作为分类目标时,标签字典中其余的标签就会组成一个S-I维的标签特征空间^,用ti,r表示Ii在空间息中的特征向量,其中ti,r = (dia,…,Clijrt, dijr+1,…,U ', 定义全文摘要本专利技术实施例公开了一种,包括以下步骤首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;然后,在两个相互条件独立的视角上提取训练集的两组特征,结合利用二视角所包含的两组特征的互补信息;最后,结合多标签空间和二视角空间中的信息,利用定义的一种新的多标签二视角支持向量机分类器进行多标签分类训练。本专利技术用于采用鉴别型分类器结合利用标签空间中所包含的信息和多视角中的信息处理多标签分类问题,对训练集标签进行降噪的同时,得到一种更准确的分类方法。文档编号G06K9/62GK102945370SQ20121039661公开日2013年2月27日 申请日期2012年10月18日 优先权日2012年10月18日专利技术者祁仲昂, 杨名, 张仲非, 张正友 申请人:浙江大学本文档来自技高网
...

【技术保护点】
一种基于多标签二视角支持向量机的分类方法,其特征在于,包括以下步骤:首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,其中所述新型的距离度量方法为,将多标签训练集表示为所述多标签训练集的两个相互条件独立的视角空间分别表示为和所述多标签训练集中的每个点都被标上了多种多样的标签,所述多标签训练集的标签字典组成了S维的多标签空间所述多标签训练集中的每个点在视角空间和中的特征向量分别表示为和在标签字典中的标签向量表示为di=(di,1,di,2,...,di,S)′,其中di,r∈{0,1},1≤r≤S表示标签字典中的第r个标签Tr是否在Ii中出现,同时用yi,r表示Ii的分类标签,yi,r=2·di,r?1,在多标签一对多的分类模式中,当一个标签Tr被作为分类目标时,标签字典中其余的标签就会组成一个S?1维的标签特征空间用ti,r表示Ii在空间中的特征向量,其中ti,r=(di,1,...,di,r?1,di,r+1,...,di,S)′,定义当给定di,k=0or?1时,di,r=0or1的条件概率如下所示:P10=ΔP(di,r=1|di,k=0)=1-P00P01=ΔP(di,r=0|di,k=1)=1-P11将每一个标签Tr的关联度向量标记为gr,gr=(gr,1,...,gr,r?1,gr,r+1,...,gr,S)′,向量的每一个元素表示标签Tr与其他标签的关联度,关联度元素gr,k(k∈{1,...,r?1,r+1,...,S})的定义如下式所示:gr,k=P00·P11+P10·P01,将样本点在空间中的特征向量与每一个标签Tr关联 度向量结合起来,得到多标签空间中一种新型的距离度量方法的定义如下式所示:disr(Ii,Ij)=||(ti,r?tj,r)⊙gr||p,其中⊙表示向量之间的阿达马Hadamard乘积;然后,在两个相互条件独立的视角上提取训练集的两组特征,结合利用二视角所包含的两组特征的互补信息;最后,结合多标签空间和二视角空间中的信息,利用定义的一种新的多标签二视角支持向量机分类器进行多标签分类训练,所述新的多标签二视角支持向量机分类器的建立方法为:Ii在标签特征空间中定义的邻域,不包括Ii自己,表示为Ii和其邻域中数据点的分类结果相似度高,和非邻域数据点的分类结果相似度低,邻域的大小u表示Ii在空间中的最邻近的邻居点的个数,将和分别标记为和通过最大化同一个样本点在两个视角下的分类相似度来添加二视角约束,该二视角约束如下所示:∀i=1n:|w(a)Txi(a)+b^(a)-w(b)Txi(b)-b^(b)|≤ηi,ηi≥0其中w(z),分别是多标签二视角支持向量机分类器MSVM?2K在视角z=a,b上的系数和偏置,通过最小化每一个点和其在多标签空间中最邻近的邻居点的分类结果在同一个视角和在不同视角之间的差异来添加多标签约束,多标签约束如下所示:且|w(a)Txi(a)-w(a)Txj(a)|≤ηij(aa),ηij(aa)≥0---(1)|w(b)Txi(b)-w(b)Txj(b)|≤ηij(bb),ηij(bb)≥0---(2)|w(a)Txi(a)+b^(a)-w(b)Txj(b)-b^(b)|≤ηij(ab),ηij(ab)≥0---(3)|w(b)Txi(b)+b^(b)-w(a)Txj(a)-b^(a)|≤ηij(ba),ηij(ba)≥0---(4)利用柔性分类标签来替代同一个视角下的多标签约束(1)和(2);同时,只选取不同视角下的多标签约束(3)和(4)中的一个以降低计算复杂度,将每个点Ii的柔性分类标签标记为li,r,li,r的取值不仅取决于Ii的分类标签yi,r,还取决于Ii在空间中最邻近的邻居点的分类标签,li,r的定义如下所示:D是常量,且0≤D<1,多标签二视角支持向量机的优化式如下所示:Cij=C(ab)i=jC(ab)*/edisr(Ii,Ij)i≠js.t.∀i=1n:li,r(w(a)Txi(a)+b^(a))≥|li,r|2-|li,r|ξi(a),ξi(a)&Great...

【技术特征摘要】

【专利技术属性】
技术研发人员:祁仲昂杨名张仲非张正友
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1