一种基于图计算技术的大规模数据聚类方法技术

技术编号：12151583 阅读：120 留言：0更新日期：2015-10-03 12:41

本发明专利技术公开了一种基于图计算技术的大规模数据聚类方法。本方法为：1)从待处理图数据的所有顶点中选取N个顶点作为候选聚类中心；2)设置每一候选聚类中心的簇标签值，然后根据一加权无向图G将候选聚类中心合并，将属于同一聚类簇的候选聚类中心划分到同一集合中；3)候选聚类中心将包含自己当前簇标签值以及权重的消息传递给相邻顶点；收到消息的顶点根据簇标签值将本次迭代收到的所有消息分成不同的类别，然后生成新的消息并在下一迭代时传递给相邻顶点；4)迭代结束后，对于每一顶点，计算具有相同标签类型的边的权重之和，得到每一顶点最后的结果值；将具有相同结果值的顶点聚为一类。本发明专利技术节约了时间和存储开销。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及，属于软件

技术介绍
聚类技术是最重要的数据挖掘技术之一，获得了极大的关注，比如专利化 200910211714. 6聚类方法和系统；ZL 201110418812. 4, 一种面向SNP数据的聚类方法等技术，聚类技术根据特定标准来查找具有相似之处的对象。例如，在社区检测，话题追踪和意见领袖等社交网络应用中，根据用户的行为和兴趣爱好，利用聚类技术可W快速的发掘类似的群体。传统的聚类解决方案，如CLARANS，BIRCH和DESCAN是单机聚类算法，适合于小规模数据集，具有较低的可扩展性。为了解决上述问题，学者提出了并行聚类算法。该些方法包括基于MapRe化ce的 K-Means并行算法，基于Pregel的半聚类算法W及RankCompete等。 MapRe化ce是一个分布式编程模型，它使用迭代的方式执行聚类，采用本地文件系统或者分布式文件系统维护中间结果，该种方式会导致过度的存储开销，同时也影响执行性能。因此，基于MapRe化ce的K-Means并行聚类算法非常耗费时间。为了提升性能，业界学者提出将大同步模型炬U化Sync虹onization Model, BSF〇应用到大规模聚类算法中。BSP模型采用消息传递来保存中间结果，减小了性能开销。例如，Pregel就是Google提出的基于BSP的图计算模型，基于Pregel及基于它的一种半聚类方案。然而，基于BSP的聚类算法并不能彻底解决上述问题。在存储中间结果方面，它们仍然存在较高的内存开销。除此之外，它们还需要在顶点之间进行若干消息传输。如果...

【技术保护点】
一种基于图计算技术的大规模数据聚类方法，其步骤为：1)从待处理图数据的所有顶点中选取N个顶点作为候选聚类中心，得到一候选聚类中心列表；2)设置每一候选聚类中心的簇标签值，然后根据一加权无向图G将所述候选聚类中心进行合并，将属于同一聚类簇的候选聚类中心划分到同一集合中，将顶点聚为k类；其中，N大于k，同一集合中的候选聚类中心采用同一标签；3)根据该加权无向图G，每个候选聚类中心将包含自己当前簇标签值以及权重的消息传递给相邻顶点；收到消息的顶点根据消息中的簇标签值将本次迭代收到的所有消息分成不同的类别，然后生成新的消息并在下一迭代过程中将其传递给相邻顶点；4)迭代结束后，对于每一顶点，计算具有相同标签类型的边的权重之和，得到每一顶点最后的结果值；然后将图数据中具有相同结果值的顶点聚为一类。

【技术特征摘要】

【专利技术属性】
技术研发人员：周薇，马宏远，包秀国，程工，刘纬，刘春阳，王卿，韩冀中，庞琳，李雄，刘玮，贺敏，
申请(专利权)人：中国科学院信息工程研究所，国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人