对数据进行聚类的方法、设备和系统技术方案

技术编号:3888897 阅读:292 留言:0更新日期:2012-04-11 18:40
公开了一种对数据进行聚类的方法、设备和系统。首先创建分级生成树,然后进行迭代图缩减和约束图切分;并且最后实现了分级式分割。通过分割的子图来获得聚类结果。本发明专利技术的计算成本低,处理速度快,聚类精度高,并且鲁棒性强。聚类的结果具有较好的统计特征。本发明专利技术可以用于各种数据分类系统。

【技术实现步骤摘要】

本专利技术涉及数据挖掘和信息索引,具体涉及一种对数据进行聚类的方法、设备和 系统,其允许快速并精确地对输入的数据项进行聚类。
技术介绍
目前,人们会接触到大量的数据。如何对这些数据进行分析、整理、聚类或者挖掘, 进而获得其中的规律性,的问题是困扰人们的问题。现有的数据聚类方法主要是基于传统的K-means算法,模糊K-means或者分级式 汇聚的聚类模型。专利文献1(CN1881218A)披露了一种聚类技术。在该专利文献1中,提 出了使用多维数据特征和迭代式汇聚合并策略。该方法通过逐级合并聚类来从各个元素创 建分级结构。在汇聚式聚类过程中,每个元素最初被放在其自己的组中。首先确定那个单 元要被融合到一个簇中。通常,根据所选的距离度量,将距离最接近的两个元素融合到一个 簇中。重复执行该迭代步骤多次,将最终产生的簇作为聚类结果。但是,该专利文献1所披露的数据聚类方法对于大规模数据集而言处理速度较 慢。该方法不能使用分布式和并行计算来解决聚类过程中的大规模计算问题,这是因为该 方法针对计算任务的分级式分解而言,没有合适的模型结构。由于无法进行分级式分解,聚 类任务不能在并行平台上进行,并本文档来自技高网...

【技术保护点】
一种对数据进行聚类的方法,包括步骤:针对输入的数据项创建分级式生成树;对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生成树上的边缘点;对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成树中每个边的切分值;以及选择具有最大切分值的边作为要切分的位置来将分级式生成树切分成子树来获得聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:范志刚李季檩吴亚栋吴波陈芒
申请(专利权)人:夏普株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1