一种融合成对约束和属性排序信息的半监督聚类方法技术

技术编号:5206391 阅读:313 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种融合成对约束和属性排序信息的半监督聚类方法,该方法包括:依据用户提供的成对约束信息获得初始属性权重;基于初始属性权重添加用户所提供的属性排序信息进行半监督聚类;依据准确度指标选择聚类结果。由于本发明专利技术所提供的半监督聚类方法在融合成对约束信息的基础上,继续添加属性排序信息,在运用成对约束学习属性权重的同时,利用属性排序对相应的属性权重进行调整,使两种先验信息相互影响,相互促进,所以可获得更准确的聚类结果。

【技术实现步骤摘要】

本专利技术涉及聚类方法,尤其是指一种融合成对约束和属性排序信息的半监督聚类 方法。
技术介绍
作为一种重要的数据挖掘工具,聚类分析依据某种相似度量将数据划分成若干 不同组。传统的聚类方法不需给定任何先验信息,仅根据聚类客观性指标,如簇间紧密 度(inter-cluster density)禾口M 内紧密t生(intra-cluster variance)进 戈 Ι分。这 种无监督聚类方法的划分结果往往不令人满意,且难于理解。为了获得令人满意的“准 确”划分,一些研究者将部分先验信息融入无监督聚类中,得到了有监督聚类(supervised clustering)禾口半监督聚类(semi-supervised clustering)。不同于有监督聚类,半监督聚类仅需给定少量先验信息,就可以取得令人满意的 结果。先验信息主要包括实例层(instance-level)信息和属性层(attribute-level)信 息。实例层信息包括实例标签,成对约束(pairwise constraints)等形式信息。实例标签在 真实应用中往往较难准确获取。成对约束信息包括被确定属于同一类的关系(must-link) 和被确定不属于同一类的关系(carmot-link)。must-link关系(x,y)表示实例χ和y相 似,必须被划分在一起;carmot-link关系(x,z)表示实例χ和ζ不同,必须被划分到不同簇 中。明确两实例的成对约束关系远比确定实例标签简单得多,因此越来越多的研究者使用 成对约束作为实例层先验信息。不同于实例层信息,属性排序是一种属性层信息。文献[Jun Sun,Wenbo Zhao,Jiangwei Xue,Zhiyong Shen, Yi-Dong Shen. Clustering with feature order preferences. PRICAI 2008,pp. 382-393]利用三元组(s,t,δ ) ( δ >0)来表示属 性排序。(s, t,δ )表示Ws-Wt彡δ,即属性s的权重比属性t的权重大δ,s比t要重要 得多。在实际应用中,用户往往会同时提供成对约束和属性排序两种不同性质的信息。 虽然单纯基于其中一种限制性信息的半监督聚类都可有效提高结果质量,但它们在处理时 均未综合考虑这两种不同种类信息的融合问题,导致聚类结果的准确性和稳定性都不高。
技术实现思路
有鉴于此,本专利技术提供,充 分利用这两种不同性质的信息,有效提高聚类结果的准确性。为达到上述目的,本专利技术的技术方案是这样实现的本专利技术的实施提供了,该方 法包括以下步骤A、依据用户提供的成对约束信息获得初始属性权重;B、基于初始属性权重添加用户所提供的属性排序信息进行半监督聚类;C、依据准确度指标选择聚类结果。由上述的技术方案可知,本专利技术中的半监督聚类方法,由于在融合成对约束信息 的基础上,继续添加属性排序信息,在运用成对约束学习属性权重的同时,利用属性排序对 相应的属性权重进行调整,使这两种先验信息相互影响,相互促进,所以可获得更准确的聚 类结果。附图说明图1为本专利技术实施例中融合成对约束和属性排序信息的半监督聚类方法的原理 图。图2为本专利技术实施例中基于初始属性权重融合属性排序进行半监督聚类的流程 图。具体实施例方式为使本专利技术的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体 实施例对本专利技术再作进一步详细的说明。本专利技术提供了一种半监督聚类方法,该方法首先融合成对约束形式的实例层信 息,学习到初始属性权重。然后,在尽量满足成对约束的基础上,继续添加属性排序形式的 属性层信息,以有效融合这两种不同性质的先验信息,得到令人满意的结果。图1为本专利技术实施例中融合成对约束和属性排序信息的半监督聚类方法的原理 图。如图1所示,本专利技术实施例中成对约束和属性排序信息融合的半监督聚类方法包括如 下所述的步骤步骤101,依据用户提供的成对约束信息获得初始属性权重。在该步骤中,上述初始属性权重的获取方法如下首先,构建测度学习(metric learning)的优化式。文献[Eric P. Xing, Andrew Y. Ng, Michael I. Jordan, Stuart J. Russell. Distance metric learning with application to clustering with side-information. NIPS 2002,pp. 505-512]基于成对 约束信息学习新的测度,使用方法较简单,且效果较好。因此,本框架采用该方法学习成对 约束以获得初始属性权重。同时,为了使属性排序和成对约束信息在距离度量上保持统一, 本专利技术为该文献中所提到的距离度量添加了规整项。公式(1)为添加规整项ν和属性权重 w的Bregman Divergences。其中,Wj代表权重向量w第j维上的值,Vj代表规整向量ν第 j维上的值,Xj和y」分别代表实例χ和实例y第j维上的属性值。cU ( ·,·)代表Bregman Divergences,给定不同的函数Φ ( ·)可得到不同的距离度量。^w2iDw (x, y) = 2^ -i^φ (χJ, yj) ( )μ vj其中,、,7表示全部实例的平均值。文献[Eric P.Xing,Andrew Y. Ng, Michael I. Jordan, Stuart J. Russell. Distance metric learning with application to clustering with side-information. NIPS 2002,pp. 505-512] i^ffi白勺足巨 离为平方欧式距离。因此,令Φ (ζ) = z2,公式⑴则为平方欧式距离。另外,本专利技术采用了上述文献所提方法中的一种特殊情况,即矩阵A为对角阵。从而,优化问题形式为本文档来自技高网
...

【技术保护点】
一种融合成对约束和属性排序信息的半监督聚类方法,其特征在于,该方法包括以下步骤:A、依据用户提供的成对约束信息获得初始属性权重;B、基于初始属性权重添加用户所提供的属性排序信息进行半监督聚类;C、依据准确度指标选择聚类结果。

【技术特征摘要】
1.一种融合成对约束和属性排序信息的半监督聚类方法,其特征在于,该方法包括以 下步骤A、依据用户提供的成对约束信息获得初始属性权重;B、基于初始属性权重添加用户所提供的属性排序信息进行半监督聚类;C、依据准确度指标选择聚类结果。2.根据权利要求1所述的方法,其特征在于步骤A中初始属性权重通过测度学习得到。3.根据权利要求1所述的方法,其特征在于步骤B中半监督聚类包括 Bi、基于成对约束信息所获得的属性权重选择属性维度;B2、对待聚类数据进行子空间投影; B3、融合两种先验信息的...

【专利技术属性】
技术研发人员:王金龙吴舜尧
申请(专利权)人:青岛理工大学
类型:发明
国别省市:95[中国|青岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1