【技术实现步骤摘要】
本专利技术属于数据挖掘中的聚类技术,特别是一种通过优化技术实现的基于超度量距离矩阵的半监督层次聚类方法。
技术介绍
将物理或抽象对象的集合分成相似的对象类的过程称为聚类。聚类问题出现在了许多学科中并且得到了广泛应用。基本上,聚类的目的就是将给定样本分到相应的簇,使得同一个簇的样本彼此相似、不同簇的样本彼此不同。基于簇产生的方式,聚类方法可以分为两类:划分聚类和层次聚类。划分聚类一般将数据集分解成一些不相交的簇,且就一些预先定义的目标函数而言,这种分解通常是最优的。层次聚类通过自底向上(凝聚)或自顶向下(分裂)的方法将数据点分组到层次树状框架中。典型的自底向上方法初始时将每个数据点作为一个独立的簇,然后将相似的簇组合在一起,从而建立更大的簇,直到整个数据集最终成为一个簇。自顶向下的方法初始时将所有数据点放在一个簇中,然后不断地分裂最大的簇。许多研究成果都报道过算法级上的层次聚类过程的改进以及对于层次聚类的理解。近年来,半监督聚类(即基于知识约束的聚类)已经作为传统聚类范型的重要变体出现。给定数据表示,现有的半监督聚类方法多利用背景知识来学习距离/相异性度量,从而修正评估聚类的客观标准,并改进优化过程。近期的半监督聚类研究存在两方面局限性。第一,绝大多数现有的半监督聚类算法都是为划分聚类设计的,几乎没有报道出半监督的层次聚类的研究工作。与划分聚类结果易于使用向量、聚类指标或优化连接矩阵表示不同,层次聚 ...
【技术保护点】
一种基于超度量距离矩阵的半监督层次聚类方法,其特征在于,包括以下步骤:步骤1,定义不等式约束的闭凸集,并将参数估计投影到该闭凸集上;步骤2,通过减去投影中形成的变化向量的方法更新估计解向量;步骤3,进行迭代投影直到给定的约束固定集收敛到最小二乘最优解。
【技术特征摘要】
1.一种基于超度量距离矩阵的半监督层次聚类方法,其特征在于,包括以下步
骤:
步骤1,定义不等式约束的闭凸集,并将参数估计投影到该闭凸集上;
步骤2,通过减去投影中形成的变化向量的方法更新估计解向量;
步骤3,进行迭代投影直到给定的约束固定集收敛到最小二乘最优解。
2.根据权利要求1所述的基于超度量距离矩阵的半监督层次聚类方法,其特征
在于,步骤1中将参数C,E投影到其中为一个m*1向量,用于
表示n*n对称相异性矩阵D;C为一个m*r相异性矩阵 x 1,1 x 1,2 . . . x 1 , r x 2,1 x 2,2 . . . x 2 , r . . . . . . . . . . . . x m , 1 x m , 2 . . . x m , r , ]]>r
为相对约束的个数;E为一个m*m单位矩阵;m=n*(n-1/2)。
3.根据权利要求1所述的基于超度量距离矩阵的半监督层次聚类方法,其特征
在于,步骤2的具体过程为:
步骤2.1,定义
a → ( t ) = a → ( t - 1 ) + E c → p u → ( t - 1 ) p / 2 - E c → q u → ( t ) q / 2 ]]> ①
u → ( t ) q = max ( 0,2 * C → q T s → / C → q ...
【专利技术属性】
技术研发人员:徐建,李涛,周文强,张宏,许福,李千目,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。