一种基于MapReduce的并行聚类方法技术

技术编号：10053880 阅读：231 留言：0更新日期：2014-05-16 02:35

本发明专利技术基于MapReduce的并行聚类方法，主要是针对大规模数据集的聚类问题，该方法以信息损失量度量样本之间的相关性，可以体现样本之间复杂的相关性，并且提供了一个客观的聚类数确定准则，通过数据并行，大大提高了聚类速度。该聚类方法可以广泛应用于医学、药学、智能交通、模式识别等领域的聚类问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MapReduce的并行聚类方法
本专利技术涉及数据挖掘领域，特别涉及大规模数据聚类分析。
技术介绍
随着电子信息技术的飞速发展，电子数据量以指数级增长，数据洪流在很多领域开始出现，如生物信息、生物医学、化学信息、网页等等。如何充分利用海量数据挖掘有用信息，从而辅助企业决策是信息领域专家所面临的巨大挑战。如果能够充分挖掘电子信息，将为企业带来巨大效益，如果不能从海量数据中挖掘有用信息，将成为电子垃圾，成为企业负担。数据挖掘是从大量数据集中发现新模式的过程，结合了人工智能、机器学习、统计和数据库，是目前分析数据的最有效手段。国内外很多学者从事这方面的研究，很多数据挖掘方法已被应用到实际当中。随着数据规模的扩大，很多传统的数据挖掘方法已不实用，针对大规模数据密集型的并行数据挖掘方法研究是近年来信息领域的研究重点。有效的并行算法和实现技术是实现大规模数据挖掘的关键。很多并行挖掘算法以不同技术实现，如多线程、MPI技术、MapReduce技术、工作流技术等，不同的实现技术有不同的性能和使用特性，MPI模式适用于计算密集型问题，特别适用于仿真，但编程复杂度较高，对运行环境的时延要求高，容错性较差。MapReduce是信息检索领域提出的一种适于数据分析的云技术，适合于数据密集型的并行数据挖掘。目前有几种MapReduce的结构，传统的MapReduce架构只是单向的Map和Reduce过程，不支持迭代，不适合复杂的数据挖掘算法。最新由美国印第安那大学教授提出的Twister软件，是一种迭代MapReduce模型，支持算法的迭代，大大提供了MapReduce算法...
一种基于MapReduce的并行聚类方法

【技术保护点】

【技术特征摘要】
1.一种基于MapReduce编程模型的并行聚类方法，其特征在于，包括步骤：原始数据划分及参数设定；以基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心；以基于MapReduce的并行中心聚类方法实现最终聚类结果；所述的原始数据划分及参数设定，具体包括：对原始文件进行分析，将原始数据转换成用概率向量表示的形式，然后随机的将原始数据均匀划分成n份，将n份数据分布到m个map节点，设定聚类截尾精度阈值α0、β0和δ0，其中α0是聚类步骤与该组数据中所有数据数比值的阈值；β0是信息损失量实际损失值与预测值差值的阈值；δ0是在并行中心聚类过程中，当前的聚类中心与上次聚类中心差值的阈值；所述的基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心，具体包括：针对每个数据划分，利用基于信息瓶颈理论聚类方法进行聚类：a.将每个向量数组看作最初的类；b.计算任意两组向量合并产生的信息损失量，选择合并后产生的信息损失量最小的一组进行合并，生产新的数组；c.重复步骤b直至满足聚类截尾精度α0和β0，确定聚类数，具体为：对于第i个数据划分，当聚类步数达到第k步k＞niα0时，开始利用当前聚类步前k-1步产生的信息损失量进行最小二乘回归，根据回归方程，当前聚类步的预测值为则预测值与实际信息损失量的差值为当e＞β0时，聚类结束，聚类数即为当前数据集的聚类数；合并各数据划分的聚类中心，利用基于信息瓶颈理论聚类方法重新聚类，生成全局初始...

【专利技术属性】
技术研发人员：孙占全，
申请(专利权)人：山东省计算中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人