【技术实现步骤摘要】
基于MapReduce的粗糙集并行约简方法、装置及系统
本专利技术涉及知识约简领域,特别是涉及一种基于MapReduce的粗糙集并行约简方法、装置及系统。
技术介绍
随着大数据时代的到来,经典的约简方法无法一次性将数据装入到内存中,无法满足大数据的要求。为此,如何在大数据下能够准确快速的进行数据挖掘时目前本领域技术人员的一个主要目标。随着GoogleTM公司的分布式文件系统GFS(GoogleFileSystem)、并行编程模式MapReduce及分布式数据存储系统BigTable的提出,为大数据的处理提供了基础,其现有技术中,已有很多经典的数据挖掘方法可以运用到大数据处理中。通常来说,用于数据挖掘的经典方法主要涉及以下几种。粗糙集,其作为一种经典的处理模糊和不确定的工具,被广泛地应用于机器学习和数据挖掘领域。在粗糙集的理论中,知识约简是重要的研究内容之一,也是知识获取的关键步骤,其中,所谓的知识,在粗糙集理论中,“知识”被认为是一种分类能力。例如,人们的行为是基于分辨现实的或抽象的对象的能力,如在远古时代,人们为了生存必须能分辨出什么可以食用,什么不可以食用;医生给病人诊断,必须辨别出患者得的是哪一种病。这些根据事物的特征差别将其分门别类的能力均可以看作是某种“知识”。另外,所谓知识约简是保持知识库的分类能力不变的条件下,删除其不必要的知识。通过删除冗余知识,可以大大提高信息系统潜在知识的清晰度。MapReduce,MapReduce是Hadoop分布式文件系统中的一个编程模型(即软件框架),基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群 ...
【技术保护点】
一种基于MapReduce的粗糙集并行约简方法,其特征在于,包括:读取待约简决策表;初始化第一MapReduce模型并令其响应所述待约简决策表,以对所述待约简决策表进行并行计算处理得到带有标记的简化决策表:若所述简化决策表为空,则令其作为所述待约简决策表的最终约简结果并予以输出;若所述简化决策表为非空,则初始化第二MapReduce模型并令其响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的重要度并将其结果写入Hadoop分布式文件系统中;读取Hadoop分布式文件系统中属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表,令所述新的待约简决策表作为所述第一MapReduce模型的输入值已进行重新约简。
【技术特征摘要】
1.一种基于MapReduce的粗糙集并行约简方法,其特征在于,包括:读取待约简决策表;初始化第一MapReduce模型并令其响应所述待约简决策表,以对所述待约简决策表进行并行计算处理得到带有标记的简化决策表:若所述简化决策表为空,则令其作为所述待约简决策表的最终约简结果并予以输出;若所述简化决策表为非空,则初始化第二MapReduce模型并令其响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的重要度并将其结果写入Hadoop分布式文件系统中;读取Hadoop分布式文件系统中属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表,令所述新的待约简决策表作为所述第一MapReduce模型的输入值已进行重新约简。2.根据权利要求1所述的基于MapReduce的粗糙集并行约简方法,其特征在于,利用第一MapReduce模型对所述待约简决策表进行并行计算处理得到简化决策表的具体方法包括:对所述待约简决策表进行作业配置,以得到多个子决策表;令第一MapReduce模型的Map函数对所述多个子决策表进行并行计算以得到所述待约简决策表中的条件属性和决策属性,并予以输出;令第一MapReduce模型的Reduce函数对所述条件属性和决策属性进行计算后得到带有标记的简化决策表。3.根据权利要求1或2所述的基于MapReduce的粗糙集并行约简方法,其特征在于,利用第二MapReduce模型并行计算所述简化决策表中每个属性的重要度的具体方法包括:初始化第二MapReduce模型;令所述第二MapReduce模型的Map函数响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的每个分类对应取到的决策值;令所述第二MapReduce模型的Reduce函数响应所述决策值,以得到每个属性的每一等价类取到的属性重要度,并将其结果写入Hadoop分布式文件系统中。4.根据权利要求1所述的基于MapReduce的粗糙集并行约简方法,其特征在于,若于所述Hadoop分布式文件系统中所读取的属性重要度最高的决策表有多个,则随机选择其中一个属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表。5.一种基于MapReduce的粗糙集并行约简装置,其特征在于,包括:作业配置模块,用于读取待约简决策表;任务并行简化模块,用于初始化第一MapReduce模型并令其响应所述待约简决策表,以对所述待约简决策表进行并行计算处理得到带有标记的简化决策表,若所述简化决策表为空,则令其作为所述待约简决策表的最终约简结果并予以输出;属性重要度并行计算模块,用于若所述简化决策表为非空时,初始化第二MapReduce模型并令其响应所述带有标记的简化决策表,以并行计算得到所述带有标记的简化决策表中每个属性的重要度并将其结果写入Hadoop分布式文件系统中;属性重要度并行约简模块,用于读取Hadoop分布式文件系统中属性重要度最高的决策表并删除其中的冗余信息以得到新的待约简决策表,令所述新的待约简决策表作为所述第一MapReduce模型的输入值已进行重新约简。6.根据权利要求5所述的基于MapReduce的粗糙集并行约简装置,其特征在于:所述任务并行简化模块,具体用于对...
【专利技术属性】
技术研发人员:席大超,王国胤,张学睿,张帆,封雷,李广砥,邓伟辉,郭义帅,谢亮,董建华,
申请(专利权)人:中国科学院重庆绿色智能技术研究院,
类型:发明
国别省市:重庆;85
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。