This invention provides a data mining optimization method based on MapReduce, which includes: defining the mapping relationship between virtual computing nodes and real computing nodes in the MapReduce computing framework; in the Map phase, the virtual computing node is first found, and then the corresponding real computing node is searched according to the virtual computing node. Each cluster is mapped to a node, and the node data is merged into the Reduce stage to output the query results. The invention proposes a data mining optimization method based on MapReduce, which improves the efficiency of data mining for data nodes in distributed environment.
【技术实现步骤摘要】
基于MapReduce的数据挖掘优化方法
本专利技术涉及数据,特别涉及一种基于MapReduce的数据挖掘优化方法。
技术介绍
在大规模的分布式数据节点中执行数据的聚集和分析需要设计高效的数据挖掘方法。在目前的相关技术中,传统集中式数据管理和搜索方法,面临着单点故障、可扩展性差等问题,无法满足分布式环境下灵活、可扩展及健壮的数据挖掘需求。因此,如何采用非集中式的数据节点管理和数据挖掘方法,以满足构建数据服务的可扩展数据节点管理与数据聚集和分析需求,仍是一个有挑战性的难题。此外,现有大数据并行计算框架在数据索引阶段,数据查询时间和成本有待改进,而且若采用传统的并行排序归并,则数据特征字段分布不均匀,在连接阶段效率将明显下降。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于MapReduce的数据挖掘优化方法,包括:在MapReduce计算框架中定义虚拟计算节点与真实计算节点的映射关系;在Map阶段,首先找到虚拟计算节点,然后再根据虚拟计算节点搜索对应的真实计算节点,将每个簇映射到一个节点上;将节点数据交由Reduce阶段做合并,输出查询结果。优选 ...
【技术保护点】
1.一种基于MapReduce的数据挖掘优化方法,其特征在于,包括:在MapReduce计算框架中定义虚拟计算节点与真实计算节点的映射关系;在Map阶段,首先找到虚拟计算节点,然后再根据虚拟计算节点搜索对应的真实计算节点,将每个簇映射到一个节点上;将节点数据交由Reduce阶段做合并,输出查询结果。
【技术特征摘要】
1.一种基于MapReduce的数据挖掘优化方法,其特征在于,包括:在MapReduce计算框架中定义虚拟计算节点与真实计算节点的映射关系;在Map阶段,首先找到虚拟计算节点,然后再根据虚拟计算节点搜索对应的真实计算节点,将每个簇映射到一个节点上;将节点数据交由Reduce阶段做合并,输出查询结果。2.根据权利要求1所述的方法,其特征在于,所述定义虚拟计算节点与真实计算节点的映射关系,进一步包括:在底层设计一个新的文件格式HMF,使得若存在用户HMF文件集合:O(F)={f1,f2,...,fn},将当前节点集合为P={γ1,γ2,...,γx},其对应节点的虚拟计算节点集合Λ={v(γ1),v(γ2),...,v(γx)};v(γi)表示虚拟计算节点与真实计算节点的映射关系。3.根据权利要求1所述的方法,其特征在于,所述Map阶段找到虚拟计算节点的步骤之前,还包括:将整个哈希值空间组织成一个虚拟的首尾相接的环;将计算节点的网络地址的方式作为关键字哈希,每个节点确定其在哈希空间上的位置;将HMF文件用哈希函数映射到哈希空间的一个值,沿该值向后,将遇到的第一...
【专利技术属性】
技术研发人员:李垚霖,
申请(专利权)人:成都博睿德科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。