一种Hadoop集群和分布式系统技术方案

技术编号:16427969 阅读:29 留言:0更新日期:2017-10-21 22:56
本发明专利技术提供了一种Hadoop集群和分布式系统,其中,该Hadoop集群包括:主节点和与主节点连接的计算从节点;主节点,用于向计算从节点分配待处理的数据;计算从节点,用于对主节点分配的数据进行计算。通过本发明专利技术实施例提供的Hadoop集群和分布式系统,可以提高Hadoop集群的运行效率。

A Hadoop cluster and distributed system

The invention provides a Hadoop cluster and distributed system, among them, the Hadoop cluster includes a main node and connected with the main node calculated from the node; the master node, used to calculate the distribution of data from the processing nodes; calculated from node, calculated for the master node distribution data. Through the Hadoop cluster and distributed system provided by the embodiment of the invention, the operation efficiency of the Hadoop cluster can be improved.

【技术实现步骤摘要】
一种Hadoop集群和分布式系统
本专利技术涉及数据处理
,具体而言,涉及一种海杜普(HadoopDistributedFileSystem,Hadoop)集群和分布式系统。
技术介绍
目前,数据处理量越来越大,种类也越来越繁多,呈现出大数据趋势。需要在对数据处理时,将待处理的数据分块后输入Hadoop集群进行并行处理(如MapReduce),以得到数据处理结果。相关技术中,Hadoop集群包括主节点和多个从节点,主节点将待处理的数据分配到从节点,从节点对数据进行处理和存储。当在Hadoop集群中增加从节点时,需要将Hadoop集群中已有从节点上的数据迁移到新增从节点上。当要从Hadoop集群中删除从节点时,需要先将待删除的从节点上的数据迁移到其他从节点后,才能删除该待删除的节点。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:由于从节点具有数据处理和存储功能,Hadoop集群进行从节点增减时,都需要耗费大量的时间(几个小时或者几天)进行从节点间数据迁移,从而降低了Hadoop集群的运行效率。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种Hadoop集群和分布式系统,以提高Hadoop集群的运行效率。第一方面,本专利技术实施例提供了一种Hadoop集群,包括:主节点和与所述主节点连接的计算从节点;所述主节点,用于向所述计算从节点分配待处理的数据;所述计算从节点,用于对所述主节点分配的数据进行计算。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中:还包括:与所述主节点连接的核心从节点;所述核心从节点,用于对所述主节点分配的数据进行存储。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中:所述主节点、所述核心从节点和所述计算从节点均采用虚拟机。第二方面,本专利技术实施例还提供一种分布式系统,包括:节点调整服务器和上述权利要求1-3任一项所述的Hadoop集群;所述Hadoop集群,包括:主节点、与所述主节点分别连接的计算从节点和核心从节点;所述节点调整服务器,与所述主节点连接,用于根据所述计算从节点的计算任务信息和所述核心从节点的存储任务信息,分别调整与所述主节点连接的所述计算从节点和所述核心从节点的数量。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中:所述节点调整服务器,包括:集群监控器,用于获取所述计算从节点的计算任务信息和所述核心从节点的存储任务信息;计算节点处理器,用于根据所述计算任务信息,计算所述计算从节点的第一扩容数量;核心节点处理器,用于根据所述存储任务信息,计算所述核心从节点的第二扩容数量或者缩减数量;从节点调整单元,用于根据所述第一扩容数量对与所述主节点连接的所述计算从节点的数量进行调整,根据所述第二扩容数量或者所述缩减数量对与所述主节点连接的所述核心从节点的数量进行调整。结合第二方面,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中:所述计算任务信息,包括:待处理任务量、当前工作中的计算从节点的计算能力参数、当前工作中的计算从节点的空闲计算能力参数和各计算从节点的最大计算能力参数;所述计算节点处理器,具体用于:当所述计算能力参数大于预设第一计算能力阈值的时长达到预设时长时,所述第一扩容数量=(所述待处理任务量-所述空闲计算能力参数)/所述最大计算能力参数。结合第二方面,本专利技术实施例提供了第二方面的第三种可能的实施方式,其中:所述计算任务信息,还包括:空闲计算从节点和空闲时间的对应关系表,所述空闲计算从节点和空闲时间的对应关系表记录有当前空闲的计算从节点的标识和对应的空闲时间;所述计算节点处理器,还具体用于:当根据所述空闲计算从节点和空闲时间的对应关系表,确定有计算从节点的空闲时间达到预设的第一空闲时间阈值时,将空闲时间达到所述第一空闲时间阈值的计算从节点的标识发送给所述从节点调整单元,使得所述从节点调整单元终止所述标识对应的计算从节点与所述主节点的连接。结合第二方面,本专利技术实施例提供了第二方面的第四种可能的实施方式,其中:所述存储任务信息,包括:集群当前存储数据量、复制率、集群最大数据存储量、各核心从节点的最大存储能力参数、数据加载率上限阈值和数据加载率下限阈值:所述核心节点处理器,具体用于:通过(所述集群当前存储数据量*所述复制率)/所述集群最大数据存储量,计算所述Hadoop集群的当前数据加载率;当确定所述当前数据加载率大于所述数据加载率上限阈值时,通过(所述集群当前存储数据量*所述复制率-所述集群最大数据存储量)/(各核心从节点的最大存储能力参数*数据加载率上限阈值),计算所述第二扩容数量;当确定所述当前数据加载率小于所述数据加载率下限阈值时,通过(所述集群当前存储数据量*所述复制率-所述集群最大数据存储量)/(各核心从节点的最大存储能力参数*数据加载率下限阈值),计算所述缩减数量。结合第二方面,本专利技术实施例提供了第二方面的第五种可能的实施方式,其中:所述从节点调整单元,用于根据所述第一扩容数量对与所述主节点连接的所述计算从节点的数量进行调整,包括:从空闲状态的计算从节点中选择所述第一扩容数量的计算空节点与所述主节点连接;当获取到所述计算节点处理器发送的计算从节点的标识时,终止所述标识对应的计算从节点与所述主节点的连接,并将所述标识对应的计算从节点设置为空闲状态。结合第二方面,本专利技术实施例提供了第二方面的第六种可能的实施方式,其中:所述从节点调整单元,用于根据所述第二扩容数量或者所述缩减数量对与所述主节点连接的所述核心从节点的数量进行调整,包括:当获取到所述第二扩容数量时,从空闲状态的核心从节点中选择所述第一扩容数量的核心空节点与所述主节点连接;当获取到所述缩减数量时,获取当前与所述主节点连接的各核心从节点的数据存储量;根据所述各核心从节点的数据存储量,从所述各核心从节点中确定出数据存储量最小的所述缩减数量的核心从节点作为待终止的核心从节点;终止确定出的所述核心从节点与所述主节点的连接,并将连接被终止的核心从节点设置为空闲状态。本专利技术实施例提供的Hadoop集群和分布式系统,通过在Hadoop集群中设置用于数据计算的计算从节点,与相关技术中在对集群中的从节点进行增减时需要进行数据迁移相比,对计算从节点的增减无需进行数据迁移,只需很短的时间就能完成,保证了Hadoop集群中计算从节点的处理性能,提高了Hadoop集群的运行效率。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例1所提供的一种Hadoop集群的结构示意图;图2示出了本专利技术实施例2所提供的分布式系统的结构示意图;图3示出了本专利技术实施例2所提供的分布式系统中,节点调整服务器的结构示意图;图4示出了本专利技术实施例2所提供的分布式系统中,节点调整服务器的从节点调整单元具体调整核心从节点数量的具体流程。图标:10本文档来自技高网...
一种Hadoop集群和分布式系统

【技术保护点】
一种Hadoop集群,其特征在于,包括:主节点和与所述主节点连接的计算从节点;所述主节点,用于向所述计算从节点分配待处理的数据;所述计算从节点,用于对所述主节点分配的数据进行计算。

【技术特征摘要】
1.一种Hadoop集群,其特征在于,包括:主节点和与所述主节点连接的计算从节点;所述主节点,用于向所述计算从节点分配待处理的数据;所述计算从节点,用于对所述主节点分配的数据进行计算。2.根据权利要求1所述的Hadoop集群,其特征在于,还包括:与所述主节点连接的核心从节点;所述核心从节点,用于对所述主节点分配的数据进行存储。3.根据权利要求2所述的Hadoop集群,其特征在于,所述主节点、所述核心从节点和所述计算从节点均采用虚拟机。4.一种分布式系统,其特征在于,包括:节点调整服务器和上述权利要求1-3任一项所述的Hadoop集群;所述Hadoop集群,包括:主节点、与所述主节点分别连接的计算从节点和核心从节点;所述节点调整服务器,与所述主节点连接,用于根据所述计算从节点的计算任务信息和所述核心从节点的存储任务信息,分别调整与所述主节点连接的所述计算从节点和所述核心从节点的数量。5.根据权利要求4所述的分布式系统,其特征在于,所述节点调整服务器,包括:集群监控器,用于获取所述计算从节点的计算任务信息和所述核心从节点的存储任务信息;计算节点处理器,用于根据所述计算任务信息,计算所述计算从节点的第一扩容数量;核心节点处理器,用于根据所述存储任务信息,计算所述核心从节点的第二扩容数量或者缩减数量;从节点调整单元,用于根据所述第一扩容数量对与所述主节点连接的所述计算从节点的数量进行调整,根据所述第二扩容数量或者所述缩减数量对与所述主节点连接的所述核心从节点的数量进行调整。6.根据权利要求5所述的分布式系统,其特征在于,所述计算任务信息,包括:待处理任务量、当前工作中的计算从节点的计算能力参数、当前工作中的计算从节点的空闲计算能力参数和各计算从节点的最大计算能力参数;所述计算节点处理器,具体用于:当所述计算能力参数大于预设第一计算能力阈值的时长达到预设时长时,所述第一扩容数量=(所述待处理任务量-所述空闲计算能力参数)/所述最大计算能力参数。7.根据权利要求6所述的分布式系统,其特征在于,所述计算任务信息,还包括:空闲计算从节点和空闲时间的对应关系表,所述空闲计算从节点和空闲时间的对应关系表记录有当前空闲的计算从节点的标识和对应的空闲时间;所述计算节点处理器,还具体用于:当...

【专利技术属性】
技术研发人员:李振龙杨超伟
申请(专利权)人:北京云和时空科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1