一种基于超度量距离矩阵的半监督层次聚类方法技术

技术编号:11112187 阅读:74 留言:0更新日期:2015-03-05 13:11
本发明专利技术提供一种基于超度量距离矩阵的半监督层次聚类方法,包括以下步骤:步骤1,定义不等式约束的闭凸集,并将参数估计投影到该闭凸集上;步骤2,通过减去投影中形成的变化向量的方法更新估计解向量;步骤3,进行迭代投影直到给定的约束固定集收敛到最小二乘最优解。本发明专利技术基于超度量树状图距离的半监督层次聚类构架为研究背景,采用基于优化的方式,提供一种基于超度量距离矩阵的半监督层次聚类方法,用于提高半监督层次聚类问题的效率和准确性。

【技术实现步骤摘要】

本专利技术属于数据挖掘中的聚类技术,特别是一种通过优化技术实现的基于超度量距离矩阵的半监督层次聚类方法
技术介绍
将物理或抽象对象的集合分成相似的对象类的过程称为聚类。聚类问题出现在了许多学科中并且得到了广泛应用。基本上,聚类的目的就是将给定样本分到相应的簇,使得同一个簇的样本彼此相似、不同簇的样本彼此不同。基于簇产生的方式,聚类方法可以分为两类:划分聚类和层次聚类。划分聚类一般将数据集分解成一些不相交的簇,且就一些预先定义的目标函数而言,这种分解通常是最优的。层次聚类通过自底向上(凝聚)或自顶向下(分裂)的方法将数据点分组到层次树状框架中。典型的自底向上方法初始时将每个数据点作为一个独立的簇,然后将相似的簇组合在一起,从而建立更大的簇,直到整个数据集最终成为一个簇。自顶向下的方法初始时将所有数据点放在一个簇中,然后不断地分裂最大的簇。许多研究成果都报道过算法级上的层次聚类过程的改进以及对于层次聚类的理解。近年来,半监督聚类(即基于知识约束的聚类)已经作为传统聚类范型的重要变体出现。给定数据表示,现有的半监督聚类方法多利用背景知识来学习距离/相异性度量,从而修正评估聚类的客观标准,并改进优化过程。近期的半监督聚类研究存在两方面局限性。第一,绝大多数现有的半监督聚类算法都是为划分聚类设计的,几乎没有报道出半监督的层次聚类的研究工作。与划分聚类结果易于使用向量、聚类指标或优化连接矩阵表示不同,层次聚类结果更加复杂典型地表示成树状图或树。此外,层次聚类方法没有全局目标函数。层次聚类的这些性质使得半监督的层次聚类问题更具挑战性。第二,约束的类型。现有的半监督聚类方法都关注于实例级必须链接和无法链接约束形式的背景信息的使用。一个必须链接(ML)约束迫使两个实例必须放在同一个簇里,而无法链接(CL)约束迫使两个实例必须不放在相同的簇里。然而ML约束和CL约束都不适用于层次聚类,因为对象链接在不同的层次框架级别。整合背景知识到聚类过程中的方法得到了广泛的研究。许多研究者研究了实例级背景信息的使用,例如将实力级背景信息用于研究距离/相异性度量、修正客观标准、提升优化程序的成对必须链接约束和无法链接约束。其他类型的知识提示(如,簇的大小、数据点的部分标签以及用户提供的外部原型/代表)也已经被用于聚类过程中。然而,绝大多数现有的半监督聚类算法都是为划分聚类设计的,几乎没有报道出半监督的层次聚类的研究工作。我们注意到,近期Zhao和Bade等人的研究是关于用顺序约束和部分已知层次框架完成层次聚类的。H.Zhao和Z.Qi在《排序约束下的分层凝聚聚类》(WKDD,2010,pp.195-199)中提出了两种基本算法:无约束的标准凝聚层次聚类(HAC)和基于约束的HAC(HACoc)。HAC算法开始时将每个实例作为一个单独的组,然后将相似的组组合在一起,从而形成更大的组,最终形成一个组。HAC算法在簇对象中是很简单的,它能用类似的方法找出不同形状的簇,但HAC也存在着一些缺点:(1)HAC有很高的时间复杂性,例如,对于质心点算法(优先队列法),其时间复杂性为O(N2logN);(2)用谱系图获得簇的有效性是有限的。簇的有效性主要用来决定在大型数据量中最优簇的数目。很多有效性方法对谱系图的低层显示出转移模式,这就会导致评估不出不精确的最优簇数。HACoc算法是对HAC算法的改进。它可以处理障碍和联锁并且通过结合侧面信息提高聚类问题的效率和准确性。然而,与他们的研究不同的是,本专利技术中的半监督层次聚类框架是基于超度量树状图距离的。超度量是特殊的树状度量,将树状度量拟合成给定集合上(非)相似性的成对对象数据的问题已经得到了广泛研究。其中,所有输入数据集的元素都是底层树的叶子并且所有叶子到根的距离都相同。超度量相当于数据聚类的层次结构。给定成对对象的相异性D,寻找最佳超度量du的问题,使得||D-du||p的最小值是一个NP难题。
技术实现思路
为了解决现有技术存在的问题,本专利技术基于超度量树状图距离的半监督层次聚类构架为研究背景,采用基于优化的方式,提供一种基于超度量距离矩阵的半监督层次聚类方法,用于提高半监督层次聚类问题的效率和准确性。一种基于超度量距离矩阵的半监督层次聚类方法,包括以下步骤:步骤1,将C,E投影到不等式约束的闭凸集,其中为一个m*1向量,用于表示n*n对称相异性矩阵D;C为一个m*r相异性矩阵,r为相对约束的个数;E为一个m*m单位矩阵;m=n*(n-1/2)。步骤2,通过减去投影中形成的变化向量的方法更新估计解向量,具体过程为:步骤2.1,定义 a → ( t ) = a → ( t - 1 ) + E c → p u → ( t - 1 ) p / 2 - E c → q u → ( t ) q / 2 ]]>   ①, u → ( t ) q = max ( 0,2 * C → q T 本文档来自技高网
...

【技术保护点】
一种基于超度量距离矩阵的半监督层次聚类方法,其特征在于,包括以下步骤:步骤1,定义不等式约束的闭凸集,并将参数估计投影到该闭凸集上;步骤2,通过减去投影中形成的变化向量的方法更新估计解向量;步骤3,进行迭代投影直到给定的约束固定集收敛到最小二乘最优解。

【技术特征摘要】
1.一种基于超度量距离矩阵的半监督层次聚类方法,其特征在于,包括以下步
骤:
步骤1,定义不等式约束的闭凸集,并将参数估计投影到该闭凸集上;
步骤2,通过减去投影中形成的变化向量的方法更新估计解向量;
步骤3,进行迭代投影直到给定的约束固定集收敛到最小二乘最优解。
2.根据权利要求1所述的基于超度量距离矩阵的半监督层次聚类方法,其特征
在于,步骤1中将参数C,E投影到其中为一个m*1向量,用于
表示n*n对称相异性矩阵D;C为一个m*r相异性矩阵 x 1,1 x 1,2 . . . x 1 , r x 2,1 x 2,2 . . . x 2 , r . . . . . . . . . . . . x m , 1 x m , 2 . . . x m , r , ]]>r
为相对约束的个数;E为一个m*m单位矩阵;m=n*(n-1/2)。
3.根据权利要求1所述的基于超度量距离矩阵的半监督层次聚类方法,其特征
在于,步骤2的具体过程为:
步骤2.1,定义
a → ( t ) = a → ( t - 1 ) + E c → p u → ( t - 1 ) p / 2 - E c → q u → ( t ) q / 2 ]]>   ①
u → ( t ) q = max ( 0,2 * C → q T s → / C → q ...

【专利技术属性】
技术研发人员:徐建李涛周文强张宏许福李千目
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1