一种基于MapReduce的并行聚类方法技术

技术编号:10053880 阅读:231 留言:0更新日期:2014-05-16 02:35
本发明专利技术基于MapReduce的并行聚类方法,主要是针对大规模数据集的聚类问题,该方法以信息损失量度量样本之间的相关性,可以体现样本之间复杂的相关性,并且提供了一个客观的聚类数确定准则,通过数据并行,大大提高了聚类速度。该聚类方法可以广泛应用于医学、药学、智能交通、模式识别等领域的聚类问题。

【技术实现步骤摘要】
一种基于MapReduce的并行聚类方法
本专利技术涉及数据挖掘领域,特别涉及大规模数据聚类分析。
技术介绍
随着电子信息技术的飞速发展,电子数据量以指数级增长,数据洪流在很多领域开始出现,如生物信息、生物医学、化学信息、网页等等。如何充分利用海量数据挖掘有用信息,从而辅助企业决策是信息领域专家所面临的巨大挑战。如果能够充分挖掘电子信息,将为企业带来巨大效益,如果不能从海量数据中挖掘有用信息,将成为电子垃圾,成为企业负担。数据挖掘是从大量数据集中发现新模式的过程,结合了人工智能、机器学习、统计和数据库,是目前分析数据的最有效手段。国内外很多学者从事这方面的研究,很多数据挖掘方法已被应用到实际当中。随着数据规模的扩大,很多传统的数据挖掘方法已不实用,针对大规模数据密集型的并行数据挖掘方法研究是近年来信息领域的研究重点。有效的并行算法和实现技术是实现大规模数据挖掘的关键。很多并行挖掘算法以不同技术实现,如多线程、MPI技术、MapReduce技术、工作流技术等,不同的实现技术有不同的性能和使用特性,MPI模式适用于计算密集型问题,特别适用于仿真,但编程复杂度较高,对运行环境的时延要求高,容错性较差。MapReduce是信息检索领域提出的一种适于数据分析的云技术,适合于数据密集型的并行数据挖掘。目前有几种MapReduce的结构,传统的MapReduce架构只是单向的Map和Reduce过程,不支持迭代,不适合复杂的数据挖掘算法。最新由美国印第安那大学教授提出的Twister软件,是一种迭代MapReduce模型,支持算法的迭代,大大提供了MapReduce算法的实用性。数据聚类是是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习、数据挖掘、模式识别、图像分析以及生物信息等。聚类的目的是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,是一种无监督方法。很多聚类方法已被研究,如k均值聚类、Fisher聚类、Kohonen聚类、基于信息瓶颈理论聚类方法等,不同聚类方法具有不同的聚类性质,适用于不同的聚类问题。K均值聚类应用最广,但聚类的距离测度只能度量变量之间的线性相关性。Kohonen聚类是一种自适应神经网络,但聚类测度通常也是欧几里德距离,无法度量变量之间的任意相关性。基于信息瓶颈理论的聚类是基于信息熵理论的聚类方法,以信息损失量为测度度量变量之间的相关性,可以统计变量之间任意统计相关性,已被用于多个领域的聚类问题,取得理想的效果。但随着数据规模的扩大,基于信息瓶颈理论聚类方法的计算量越来越大,已不适于大规模的数据分析问题。基于信息瓶颈理论聚类方法的优点,本专利提出了基于MapReduce编程模式的并行聚类方法,有效解决了大规模聚类分析问题。基于MapReduce的并行聚类方法可用于生物信息的DNA数据聚类,生物信息数据量非常庞大,每天都会产生大量的DNA数据,DNA序列聚类是生物信息的重要内容之一,如何对大规模的DNA序列进有效聚类是研究热点。DNA数据通常用A、C、G、T字符串组成,为实现DNA数据进行序列对比,通常需要对DNA字符对进行统计,将DNA序列转化成概率向量,通过计算两个概率向量的距离来度量DNA序列直接的相关性,从而利用本专利技术专利实现DNA序列的有效聚类。基于MapReduce聚类方法与其它聚类方法相比主要有以下优点:1)用信息损失量作为度量两个变量之间的距离测度,可以度量变量之间任意统计相关性;2)本专利技术可用客观的方法确定聚类数,有效避免现有聚类方法人为主观指定聚类数的缺点;3)本专利技术专利提出的基于MapReduce并行聚类方法适于大规模数据聚类,有效提高聚类效率和性能。
技术实现思路
本专利技术的目的之一在于提出一种基于MapReduce的并行聚类方法,该方法以信息损失作为样本之间距离的测度,以MapReduce编程模式实现聚类中心的并行计算,为聚类数确定提供了客观标准,避免主观指定聚类数的弊端。为达到上述目的,本专利技术采用的技术方案为:该基于MapReduce的并行聚类方法,包括步骤:将原数据集进行转换,以概率的形式进行描述;对原数据进行划分,设定聚类参数;以基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心;以基于MapReduce的并行中心聚类方法实现最终聚类结果。附图说明图1基于迭代MapReduce编程模式的Twister软件架构图2基于MapReduce的并行信息瓶颈理论聚类方法流程图图3基于MapRedcue的并行中心聚类方法流程图图4基于信息损失量变化确定聚类数图5由本专利技术实施DNA序列聚类结果具体实施方式为更好地理解本专利技术,下面结合附图和具体实施方式对本专利技术作详细说明。聚类是通过分析变量之间的相关性将数据集合划分若干类的过程,使得类内差异小,类间差异大。对于大规模数据的聚类分析,需要通过并行的方式实现。在数据划分的并行聚类中,如何实现全局的聚类中心是关键。另外,如何确定聚类数需要一个客观的标准。本专利技术提出一种基于MapReduce编程模式的并行聚类方法,该方法的具体操作如下。数据转换、划分及参数设定对原始文件进行分析,将原始数据转换成用概率向量表示的形式。然后随机的将原始数据均匀划分成n份,将n份数据分布到m个map节点,设定聚类截尾精度阈值α0、β0和δ0,其中α0是聚类步骤与该组数据中所有数据数比值的阈值;β0是信息损失量实际损失值与预测值差值的阈值;δ0是在并行中心聚类过程中,当前的聚类中心与上次聚类中心差值的阈值。基于MapReduce的并行信息瓶颈理论聚类1)基于迭代MapReduce的Twister软件架构本专利技术是基于迭代MapReuce编程模式,以Twister软件为例,介绍基于迭代MapReduce编程模式软件的架构。迭代MapReduce软件包括以下几部分,主作业、Map作业、Reduce作业和Combine作业,架构附图1如下所示。其中,MapReduce作业通过客户节点控制,在配置阶段,客户端分布各MapReduce方法给各个任务,准备KeyPair对和静态数据给MapReduce任务,在每次迭代过程中,客户端接收到Combine方法返回的结果,直到任务结束。Map作业主要实现计算模型,在初始化阶段,Map作业根据划分文件从本地磁盘加载静态数据,利用用户定义的计算模型对划分数据进行分析,结果传递给Reduce作业。Reduce作业主要接受从Map作业传递过来的结果,具体工作根据实际任务进行分析。Combine作业是将分析的结果收集起来,传递给客户端。在客户端程序,判断是否达到截尾准则,如果达到程序结束退出,否则重复MapReduce过程。2)基于信息瓶颈理论聚类方法在给定一个目标集合,基于瓶颈原理的聚类方法是寻找在所有的聚类中使目标类与特征之间的信息损失达到最小。设在目标空间X和特征空间Y上的联合概率分布为p(x,y),信息瓶颈理论是找一个聚类在给定聚类质量的约束条件下使信息损失达到最小。是X和之间的互信息信息瓶颈理论源于Shannon的率失真理论,它提供了在给定失真约束的条件下分类数的下限,给定一个随机变量X和失真测度d(x1,x2),Shann本文档来自技高网
...
一种基于MapReduce的并行聚类方法

【技术保护点】

【技术特征摘要】
1.一种基于MapReduce编程模型的并行聚类方法,其特征在于,包括步骤:原始数据划分及参数设定;以基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心;以基于MapReduce的并行中心聚类方法实现最终聚类结果;所述的原始数据划分及参数设定,具体包括:对原始文件进行分析,将原始数据转换成用概率向量表示的形式,然后随机的将原始数据均匀划分成n份,将n份数据分布到m个map节点,设定聚类截尾精度阈值α0、β0和δ0,其中α0是聚类步骤与该组数据中所有数据数比值的阈值;β0是信息损失量实际损失值与预测值差值的阈值;δ0是在并行中心聚类过程中,当前的聚类中心与上次聚类中心差值的阈值;所述的基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心,具体包括:针对每个数据划分,利用基于信息瓶颈理论聚类方法进行聚类:a.将每个向量数组看作最初的类;b.计算任意两组向量合并产生的信息损失量,选择合并后产生的信息损失量最小的一组进行合并,生产新的数组;c.重复步骤b直至满足聚类截尾精度α0和β0,确定聚类数,具体为:对于第i个数据划分,当聚类步数达到第k步k>niα0时,开始利用当前聚类步前k-1步产生的信息损失量进行最小二乘回归,根据回归方程,当前聚类步的预测值为则预测值与实际信息损失量的差值为当e>β0时,聚类结束,聚类数即为当前数据集的聚类数;合并各数据划分的聚类中心,利用基于信息瓶颈理论聚类方法重新聚类,生成全局初始...

【专利技术属性】
技术研发人员:孙占全
申请(专利权)人:山东省计算中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1