基于马尔科夫随机场的局部增量式可视化聚类方法技术

技术编号:8656178 阅读:212 留言:0更新日期:2013-05-01 23:54
本发明专利技术公开了一种基于马尔可夫随机场的局部增量式可视化聚类方法,主要包括迭代和处理两个过程,其中:对完全未知的目标数据计算其相异度矩阵,将该矩阵作为迭代过程的输入,得到k阶邻域系统和忠实度矩阵;将迭代过程的输出作为处理过程的输入,得到重排序图像和聚类置信度等信息。该方法根据马尔可夫随机场的性质,采用k阶邻域系统计算全局概率测度;根据k阶邻域系统,通过降维来降低计算复杂度;根据忠实度矩阵,选择最佳划分类别,并且进一步给出聚类结果的置信度。该方法为聚类提供先验信息,直观地了解数据结构和数据类别的分布情况;同时,还能一次即可给出聚类结果和聚类评估;并给出数据隐含复杂结构和聚类置信度。

【技术实现步骤摘要】

本专利技术涉及模式识别、数据挖掘等
,尤其是一种。
技术介绍
传统的聚类方法如k均值聚类方法等需要以聚类数目作为参数输入,聚类结果的优劣严重依赖于聚类数目的先验估计。然而,在很多实际场合中,人们往往对数据一无所知,一般的办法是通过多次实验寻找较优的聚类数目作为参数输入。但当数据规模十分庞大或者实验成本较高的时候,以上后聚类(post-cluster)的方法便失去可行性。在当今大数据时代,提出没有参数依赖的、能够只需一次实验的聚类方法变得十分迫切和紧要。基于以上考虑,人们试图通过可视化的办法获得对数据的直观印象,或者进一步地,进行聚类估计和分析。事实上可视化聚类研究已经有相当长时期的历史。最近几年由于它的聚类效果明显,不需要事先估计参数等优势,从而得到了研究人员的广泛注意。大部分可视化聚类方法采用相似度矩阵作为输入,利用Prim算法及其扩展算法,通过重排序矩阵获得聚类结构图像,从图像中可以得到聚类数目的估计。然而,这些聚类算法通常从最近邻出发,忽略了更多的局部信息,从而对复杂结构的聚类无能为力。并且,这些聚类算法只给出了聚类数目,并没有实现聚类划分,也无法给出聚类划分结果的评定本文档来自技高网...

【技术保护点】
一种基于马尔科夫随机场的局部增量式可视化聚类方法,其包括:步骤S1:输入样本数据,根据所输入的每个样本数据建立图模型,图的各个顶点为所述样本数据;根据欧氏距离计算出相异度矩阵,所述相异度矩阵中的元素为各个样本之间的相异度;将所述相异度矩阵归一化;步骤S2:初始化每个顶点所属的类别为其自身;步骤S3:对于每个顶点,迭代计算该顶点的k阶邻域概率,并根据每个顶点的k阶邻域概率得出全局概率;最终获得使得全局概率最大的最终k阶邻域;步骤S4:根据所述最终k阶邻域,生成重排序RDI图像,并获得最终的聚类结果。

【技术特征摘要】
1.一种基于马尔科夫随机场的局部增量式可视化聚类方法,其包括: 步骤S1:输入样本数据,根据所输入的每个样本数据建立图模型,图的各个顶点为所述样本数据;根据欧氏距离计算出相异度矩阵,所述相异度矩阵中的元素为各个样本之间的相异度;将所述相异度矩阵归一化; 步骤S2:初始化每个顶点所属的类别为其自身; 步骤S3:对于每个顶点,迭代计算该顶点的k阶邻域概率,并根据每个顶点的k阶邻域概率得出全局概率;最终获得使得全局概率最大的最终k阶邻域; 步骤S4:根据所述最终k阶邻域,生成重排序RDI图像,并获得最终的聚类结果。2.如权利要求1所述的方法,其特征在于:步骤SI中相异度矩阵中的元素如下计算:3.如权利要求1所述的方法,其特征在于:所述步骤3中迭代过程具体为: 步骤S31:对每个顶点建立各自的k阶邻域; 步骤S32:计算忠实度矩阵,其中所述忠实度矩阵中的元素表示各个顶点对各个类别的忠实程度; 步骤S33:取j = arg Iiiaxi b^.作为顶点Xi的类别,计算每个顶点的k阶邻域的概率,然后计算新的全局概率;其中所述bu为所述顶点Xi属于类别j的忠实度; 步骤S34:如果达到最大迭代次数,则停止迭代;否则置k = 2k ; 步骤S35:如果所计算的新的全局概率不再增加,则停止迭代;否则,用新的全局概率代替上一次迭代产生的全局概率,并返回步骤S31。4.如权利要求1所述的方法,其特征在于:所述步骤4具体包括: 步骤S41:以k阶邻域为单位...

【专利技术属性】
技术研发人员:王亮钟黎周振
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1