基于MapReduce的粗糙集并行约简方法、装置及系统制造方法及图纸

技术编号:10472787 阅读:176 留言:0更新日期:2014-09-25 11:08
本发明专利技术提供了一种基于MapReduce的粗糙集并行约简方法、装置及系统,所述方法通过读取待约简决策表后,接着对所述决策表进行简化,再对所述简化后的决策表进行属性重要度并行计算处理,最后再进行属性重要度并行约简得到最终的约简结果,所述方法可以通过一次MapReduce算出所有属性的重要度,且在得到一个约简结果之后又重新删除简化决策表的冗余信息,使得简化决策表更加的精简,因此可以进一步的提高计算速度。另外,本发明专利技术提供的基于MapReduce的粗糙集并行约简装置及系统,其与所述方法一样,很好地解决现有技术中知识约简方法存在一定限制条件及不能高效地进行并行化约简的问题并使得储存空间得到进一步的优化。

【技术实现步骤摘要】
基于MapReduce的粗糙集并行约简方法、装置及系统
本专利技术涉及知识约简领域,特别是涉及一种基于MapReduce的粗糙集并行约简方法、装置及系统。
技术介绍
随着大数据时代的到来,经典的约简方法无法一次性将数据装入到内存中,无法满足大数据的要求。为此,如何在大数据下能够准确快速的进行数据挖掘时目前本领域技术人员的一个主要目标。随着GoogleTM公司的分布式文件系统GFS(GoogleFileSystem)、并行编程模式MapReduce及分布式数据存储系统BigTable的提出,为大数据的处理提供了基础,其现有技术中,已有很多经典的数据挖掘方法可以运用到大数据处理中。通常来说,用于数据挖掘的经典方法主要涉及以下几种。粗糙集,其作为一种经典的处理模糊和不确定的工具,被广泛地应用于机器学习和数据挖掘领域。在粗糙集的理论中,知识约简是重要的研究内容之一,也是知识获取的关键步骤,其中,所谓的知识,在粗糙集理论中,“知识”被认为是一种分类能力。例如,人们的行为是基于分辨现实的或抽象的对象的能力,如在远古时代,人们为了生存必须能分辨出什么可以食用,什么不可以食用;医生给病人诊断,必须辨别出患者得的是哪一种病。这些根据事物的特征差别将其分门别类的能力均可以看作是某种“知识”。另外,所谓知识约简是保持知识库的分类能力不变的条件下,删除其不必要的知识。通过删除冗余知识,可以大大提高信息系统潜在知识的清晰度。MapReduce,MapReduce是Hadoop分布式文件系统中的一个编程模型(即软件框架),基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的式并行处理上T级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。通常,MapReduce框架和Hadoop分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用。另外,map函数和reduce函数是交给用户实现的,而这两个函数定义了任务本身。在现有理论中,详见文献:1)【ZhangJ,LiT,RuanD,etal.Aparallelmethodforcomputingroughsetapproximations[J].InformationSciences,2012,194:209-223】;2)【JunboZhang,Jian-SyuanWong,TianruiLi,YiPan.Acomparisonofparallellarge-scaleknowledgeacquisitionusingroughsettheoryondifferentMapReduceruntimesystems.InternationalJournalofApproximateReasoning.2013】。在以上文献中,提出了一种粗糙集并行近似模型和基于该模型的粗糙集知识获取并行模型。该模型从理论上给出了很好的证明了,论证了粗糙集并行模型的可行性,但是该模型只是将粗糙集最基本的方法进行了并行化,粗糙集的约简方法并没有涉及。另外,在文献:3)【钱进,苗夺谦,张泽华.云计算环境下知识约简算法[J].计算机学报,2011,34(12):2332-2343】;4)【钱进,苗夺谦,张泽华.云计算环境下差别矩阵知识约简算法研究[J].计算机科学,2011,38(8)】中。提出了一种粗糙集的并行化约简方法模型,但是该方法的限制居多,需要是相容决策表,才可以进行大数据下的约简,实际运用受到很大的限制。简单来讲,以上现有知识约简方法主要存在以下缺陷:首先,虽然可以进行粗糙集的并行计算处理,但是不能够进行约简。其次,虽然也有能够进行粗糙集并行化约简方法,但是其有限制条件,即该方法只针对相容决策表,在实际应用时受到很大的限制。最后,已存在的并行约简方法模型,在运行效率上并不高,还有待提升。
技术实现思路
鉴于以上所述现有技术的不足或缺点,本专利技术的目的在于提供一种基于MapReduce的粗糙集并行约简方法、装置及系统,用于解决现有技术中知识约简方法存在一定限制条件及不能高效地进行并行化约简的问题。为实现上述目的及其他相关目的,本专利技术提供以下技术方案:一种基于MapReduce的粗糙集并行约简方法包括:读取待约简决策表;初始化第一MapReduce模型并令其响应所述待约简决策表,以对所述待约简决策表进行并行计算处理得到带有标记的简化决策表:若所述简化决策表为空,则令其作为所述待约简决策表的最终约简结果并予以输出;若所述简化决策表为非空,则初始化第二MapReduce模型并令其响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的重要度并将其结果写入Hadoop分布式文件系统中;读取Hadoop分布式文件系统中属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表,令所述新的待约简决策表作为所述第一MapReduce模型的输入值已进行重新约简。另外,本专利技术还给出了一种基于MapReduce的粗糙集并行约简装置,包括:作业配置模块,用于读取待约简决策表;任务并行简化模块,用于初始化第一MapReduce模型并令其响应所述待约简决策表,以对所述待约简决策表进行并行计算处理得到带有标记的简化决策表,若所述简化决策表为空,则令其作为所述待约简决策表的最终约简结果并予以输出;属性重要度并行计算模块,用于若所述简化决策表为非空时,初始化第二MapReduce模型并令其响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的重要度并将其结果写入Hadoop分布式文件系统中;属性重要度并行约简模块,用于读取Hadoop分布式文件系统中属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表,令所述新的待约简决策表作为所述第一MapReduce模型的输入值已进行重新约简。另外,本专利技术还提供了一种基于MapReduce的粗糙集并行约简系统,包括:作业配置单元,用于读取待约简决策表;任务并行简化单元,用于初始化第一MapReduce模型并令其响应所述待约简决策表,以对所述待约简决策表进行并行计算处理得到带有标记的简化决策表,若所述简化决策表为空,则令其作为所述待约简决策表的最终约简结果并予以输出;属性重要度并行计算单元,用于若所述简化决策表为非空时,初始化第二MapReduce模型并令其响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的重要度并将其结果写入Hadoop分布式文件系统中;属性重要度并行约简单元,用于读取Hadoop分布式文件系统中属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表,令所述新的待约简决策表作为所述第一MapReduce模型的输入值已进行重新约简。综上所述,本专利技术相对现有技术本文档来自技高网
...
基于MapReduce的粗糙集并行约简方法、装置及系统

【技术保护点】
一种基于MapReduce的粗糙集并行约简方法,其特征在于,包括:读取待约简决策表;初始化第一MapReduce模型并令其响应所述待约简决策表,以对所述待约简决策表进行并行计算处理得到带有标记的简化决策表:若所述简化决策表为空,则令其作为所述待约简决策表的最终约简结果并予以输出;若所述简化决策表为非空,则初始化第二MapReduce模型并令其响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的重要度并将其结果写入Hadoop分布式文件系统中;读取Hadoop分布式文件系统中属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表,令所述新的待约简决策表作为所述第一MapReduce模型的输入值已进行重新约简。

【技术特征摘要】
1.一种基于MapReduce的粗糙集并行约简方法,其特征在于,包括:读取待约简决策表;初始化第一MapReduce模型并令其响应所述待约简决策表,以对所述待约简决策表进行并行计算处理得到带有标记的简化决策表:若所述简化决策表为空,则令其作为所述待约简决策表的最终约简结果并予以输出;若所述简化决策表为非空,则初始化第二MapReduce模型并令其响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的重要度并将其结果写入Hadoop分布式文件系统中;读取Hadoop分布式文件系统中属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表,令所述新的待约简决策表作为所述第一MapReduce模型的输入值已进行重新约简。2.根据权利要求1所述的基于MapReduce的粗糙集并行约简方法,其特征在于,利用第一MapReduce模型对所述待约简决策表进行并行计算处理得到简化决策表的具体方法包括:对所述待约简决策表进行作业配置,以得到多个子决策表;令第一MapReduce模型的Map函数对所述多个子决策表进行并行计算以得到所述待约简决策表中的条件属性和决策属性,并予以输出;令第一MapReduce模型的Reduce函数对所述条件属性和决策属性进行计算后得到带有标记的简化决策表。3.根据权利要求1或2所述的基于MapReduce的粗糙集并行约简方法,其特征在于,利用第二MapReduce模型并行计算所述简化决策表中每个属性的重要度的具体方法包括:初始化第二MapReduce模型;令所述第二MapReduce模型的Map函数响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的每个分类对应取到的决策值;令所述第二MapReduce模型的Reduce函数响应所述决策值,以得到每个属性的每一等价类取到的属性重要度,并将其结果写入Hadoop分布式文件系统中。4.根据权利要求1所述的基于MapReduce的粗糙集并行约简方法,其特征在于,若于所述Hadoop分布式文件系统中所读取的属性重要度最高的决策表有多个,则随机选择其中一个属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表。5.一种基于MapReduce的粗糙集并行约简装置,其特征在于,包括:作业配置模块,用于读取待约简决策表;任务并行简化模块,用于初始化第一MapReduce模型并令其响应所述待约简决策表,以对所述待约简决策表进行并行计算处理得到带有标记的简化决策表,若所述简化决策表为空,则令其作为所述待约简决策表的最终约简结果并予以输出;属性重要度并行计算模块,用于若所述简化决策表为非空时,初始化第二MapReduce模型并令其响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的重要度并将其结果写入Hadoop分布式文件系统中;属性重要度并行约简模块,用于读取Hadoop分布式文件系统中属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表,令所述新的待约简决策表作为所述第一MapReduce模型的输入值已进行重新约简。6.根据权利要求5所述的基于MapReduce的粗糙集并行约简装置,其特征在于:所述任务并行简化模块,具体用于对...

【专利技术属性】
技术研发人员:席大超王国胤张学睿张帆封雷李广砥邓伟辉郭义帅谢亮董建华
申请(专利权)人:中国科学院重庆绿色智能技术研究院
类型:发明
国别省市:重庆;85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1