基于MapReduce的数据挖掘优化方法技术

技术编号:18445072 阅读:68 留言:0更新日期:2018-07-14 10:26
本发明专利技术提供了一种基于MapReduce的数据挖掘优化方法,该方法包括:在MapReduce计算框架中定义虚拟计算节点与真实计算节点的映射关系;在Map阶段,首先找到虚拟计算节点,然后再根据虚拟计算节点搜索对应的真实计算节点,将每个簇映射到一个节点上;将节点数据交由Reduce阶段做合并,输出查询结果。本发明专利技术提出了一种基于MapReduce的数据挖掘优化方法,针对分布式环境的数据节点,提高了数据挖掘的效率。

Data mining optimization method based on MapReduce

This invention provides a data mining optimization method based on MapReduce, which includes: defining the mapping relationship between virtual computing nodes and real computing nodes in the MapReduce computing framework; in the Map phase, the virtual computing node is first found, and then the corresponding real computing node is searched according to the virtual computing node. Each cluster is mapped to a node, and the node data is merged into the Reduce stage to output the query results. The invention proposes a data mining optimization method based on MapReduce, which improves the efficiency of data mining for data nodes in distributed environment.

【技术实现步骤摘要】
基于MapReduce的数据挖掘优化方法
本专利技术涉及数据,特别涉及一种基于MapReduce的数据挖掘优化方法。
技术介绍
在大规模的分布式数据节点中执行数据的聚集和分析需要设计高效的数据挖掘方法。在目前的相关技术中,传统集中式数据管理和搜索方法,面临着单点故障、可扩展性差等问题,无法满足分布式环境下灵活、可扩展及健壮的数据挖掘需求。因此,如何采用非集中式的数据节点管理和数据挖掘方法,以满足构建数据服务的可扩展数据节点管理与数据聚集和分析需求,仍是一个有挑战性的难题。此外,现有大数据并行计算框架在数据索引阶段,数据查询时间和成本有待改进,而且若采用传统的并行排序归并,则数据特征字段分布不均匀,在连接阶段效率将明显下降。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于MapReduce的数据挖掘优化方法,包括:在MapReduce计算框架中定义虚拟计算节点与真实计算节点的映射关系;在Map阶段,首先找到虚拟计算节点,然后再根据虚拟计算节点搜索对应的真实计算节点,将每个簇映射到一个节点上;将节点数据交由Reduce阶段做合并,输出查询结果。优选地,所述定义虚拟计算节点与真实计算节点的映射关系,进一步包括:在底层设计一个新的文件格式HMF,使得若存在用户HMF文件集合:O(F)={f1,f2,...,fn},将当前节点集合为P={γ1,γ2,...,γx},其对应节点的虚拟计算节点集合Λ={v(γ1),v(γ2),...,v(γx)};v(γi)表示虚拟计算节点与真实计算节点的映射关系。优选地,所述Map阶段找到虚拟计算节点的步骤之前,还包括:将整个哈希值空间组织成一个虚拟的首尾相接的环;将计算节点的网络地址的方式作为关键字哈希,每个节点确定其在哈希空间上的位置;将HMF文件用哈希函数映射到哈希空间的一个值,沿该值向后,将遇到的第一个节点作为处理节点。优选地,在Map阶段,当根据HMF搜索节点时,根据虚拟计算节点搜索对应的真实计算节点,将每个簇映射到一个节点上。优选地,所述将每个簇映射到一个节点上的步骤之后,还包括:在连接阶段,收集每个节点的负载数据,一旦发现有不平衡情况,该节点所映射的簇则重新分配给新节点,新节点数量根据负载情况确定;替代后原节点资源回收,以便再次分配;当每个节点的哈希连接完成后,新节点和原节点数据一同交由Reduce阶段做合并。优选地,根据每个节点的Map任务选择出其中一个表作为哈希连接基表来构建哈希表,将参与连接操作的连接属性作为hashkey,读取在HMF文件系统中基表的连接属性字段到MapReduce分布式系统的节点内存中,然后,对连接字段的所有键值,进行哈希函数操作;经过Hash处理过的基表连接列,连同数据一起存放到该内存中开辟的一块专门存放此类数据空间;然后,依据不同的哈希函数值,对基表进行划分簇操作;每个簇中包括所有相同哈希函数值的基表数据。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种基于MapReduce的数据挖掘优化方法,针对分布式环境的数据节点,方便用户通过匹配服务描述信息来使用数据,提高了数据挖掘的效率;为通过使用云端服务提供的计算资源或存储资源来开发构建数据服务提供了一个可行的方案。附图说明图1是根据本专利技术实施例的基于MapReduce的数据挖掘优化方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种基于MapReduce的数据挖掘优化方法。图1是根据本专利技术实施例的基于MapReduce的数据挖掘优化方法流程图。本专利技术的数据特征挖掘系统包括存储子系统、特征分类子系统、可信密钥子系统、特征挖掘子系统、任务调度子系统。可信密钥子系统用于保证数据按身份认证结果来获取,包括密钥生成、身份验证和解密;密钥生成算法如下:1)将数据划分为多个密钥字符串长度大小的块;2)用0~26范围的整数取代明文和密钥的每个字符,空格符=00,A=01,...,Z=26;3)对明文的每个块,将其每个字符用对应的计算值取代,所述对应的计算值为将对应字符的整数编码与密钥中相应位置的字符的整数编码相加后除27再取余所得到的值;4)将用对应的计算值取代的字符再用其等价字符替代;所述身份验证通过用户登录和声纹验证实现;身份验证成功的用户即可通过解密模块获得密钥,完成解密;存储子系统包括存储模块和容灾模块,所述存储模块认证所需进行信息存储的网络中的节点,构建所存储信息的信任关系,以分布在分布式环境下的数据为基础,对特征数据进行封装存储,采用复合式特征索引结构,对文本型数据和数值型数据产生较快的查询速度;所述容灾模块用于数据丢失或者遭到破坏的情况下恢复数据;所述存储模块在传统索引的基础上,将数据特征集中的数据属性键和属性数值划分开来,构建双层特征索引结构。首先为数据特征集中数据的属性构建高层索引。其次对高层特征属性所对应的键值构建特征索引,若是数值型数据就构建R树特征索引结构,若是文本型数据就构建逆向特征索引。当对数值型数据进行范围查询时,就会直接定位到低层的树形特征索引完成,减小数据查询时间和成本。高层树形特征索引针对数据特征集中所包含的特征属性构建,在该层索引中数据的具体特征属性全部存储在非叶子对象中,而R树的所有叶子对象中则存储三部分信息Ai、Pcat、Psi,表示的含义分别为:(1)Ai是索引数据特征集的具体特征属性,其中n为所有特征属性的个数,i∈[1,n];(2)Pcat表示的是指针类型;(3)Psi为指向低层特征索引的指针,根据数据类型的不同,该指针指向不同的特征索引结构,即指向逆向文档表表头或R树的根节点。低层特征索引是为高层的特征属性所对应的键值所构建的索引,包括为数值型数据构建的R树特征索引结构和为文本型数据构建的逆向文档表特征索引。实际键值均存储在R树特征索引结构的非叶子对象中,且叶子对象都是有序排列且包含特征索引文件的三部分信息RS、Pos、Fileid,分别表示的含义是:(1)RS为第R个特征属性键的第S个属性键值,R∈[1,n2]、S∈[1,p],n2为数据特征集中包含的数值特征属性的个数,P为第R个属性键的特征数量。(2)Pos为包含此属性数值的文件所在的位置信息。(3)Fileid为包含查询特征词的文件ID。逆向特征索引分为两个部分,第一部分是由不同索引词构成的特征索引表,记录了不同的文本关键字以及它们的相关信息。第二部分记录了出现过每个索引词的文档集合以及其存储地址。逆向特征索引结构中具体包含Aij、Fileid、Pos、Freq四部分信息,表示的含义分别为:(1)Aij为第i个特征属性键的第j个特征属性键值,i∈[1,n1]、j∈[1,m],n1为文本属性的个数,m为第i个属性键包含的属性数值的个数。(2)Fileid为包含查询特征词的文件ID,Fileid是唯一的。(3)Pos为包含查询特征本文档来自技高网...

【技术保护点】
1.一种基于MapReduce的数据挖掘优化方法,其特征在于,包括:在MapReduce计算框架中定义虚拟计算节点与真实计算节点的映射关系;在Map阶段,首先找到虚拟计算节点,然后再根据虚拟计算节点搜索对应的真实计算节点,将每个簇映射到一个节点上;将节点数据交由Reduce阶段做合并,输出查询结果。

【技术特征摘要】
1.一种基于MapReduce的数据挖掘优化方法,其特征在于,包括:在MapReduce计算框架中定义虚拟计算节点与真实计算节点的映射关系;在Map阶段,首先找到虚拟计算节点,然后再根据虚拟计算节点搜索对应的真实计算节点,将每个簇映射到一个节点上;将节点数据交由Reduce阶段做合并,输出查询结果。2.根据权利要求1所述的方法,其特征在于,所述定义虚拟计算节点与真实计算节点的映射关系,进一步包括:在底层设计一个新的文件格式HMF,使得若存在用户HMF文件集合:O(F)={f1,f2,...,fn},将当前节点集合为P={γ1,γ2,...,γx},其对应节点的虚拟计算节点集合Λ={v(γ1),v(γ2),...,v(γx)};v(γi)表示虚拟计算节点与真实计算节点的映射关系。3.根据权利要求1所述的方法,其特征在于,所述Map阶段找到虚拟计算节点的步骤之前,还包括:将整个哈希值空间组织成一个虚拟的首尾相接的环;将计算节点的网络地址的方式作为关键字哈希,每个节点确定其在哈希空间上的位置;将HMF文件用哈希函数映射到哈希空间的一个值,沿该值向后,将遇到的第一...

【专利技术属性】
技术研发人员:李垚霖
申请(专利权)人:成都博睿德科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1