一种Hadoop的数据快速加载方法与系统技术方案

技术编号：19903583 阅读：23 留言：0更新日期：2018-12-26 02:57

本发明专利技术公开了一种Hadoop的数据快速加载方法与系统包括使用DLS执行：从元数据节点实时采集元数据信息，并根据元数据信息获得当前可用的数据节点信息；将本数据节点的待加载数据根据数据节点信息分割为多个数据分段，并使当前可用的数据节点同时加载多个数据分段；接收所有当前可用的数据节点的加载完成信息以结束数据加载。本发明专利技术能够将不同待加载数据或不同类型的待加载数据快速加载到HDFS中，通过并行加载方式提高加载效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种Hadoop的数据快速加载方法与系统
本专利技术涉及计算机领域，更具体地，特别是指一种Hadoop的数据快速加载方法与系统。
技术介绍
在现有技术的Hadoop分布式大数据系统中，外部数据通常被存储在某一Datanode节点的普通文件系统中。如果把想这些外部数据加载或导入Hadoop，加载的数据会被优先存放到同一Datanode节点的HDFS文件系统中，只有当本地的HDFS文件系统已满时，才会存入其他Datanode节点的HDFS文件系统。因此数据只能先向一个datanode节点加载，不能无条件地向其他节点并行加载，导致数据加载效率很低。针对现有技术中外部数据加载到HDFS文件系统的数据加载效率很低的问题，目前尚未有有效的解决方案。
技术实现思路
有鉴于此，本专利技术实施例的目的在于提出一种Hadoop的数据快速加载方法与系统，能够将不同待加载数据或不同类型的待加载数据快速加载到HDFS中，通过并行加载方式提高加载效率。基于上述目的，本专利技术的一方面提供了一种Hadoop的数据快速加载方法，包括使用DLS执行以下步骤：从元数据节点实时采集元数据信息，并根据元数据信息获得当前可用的数据节点信息；将本数据节点的待加载数据根据数据节点信息分割为多个数据分段，并使当前可用的数据节点同时加载多个数据分段；接收所有当前可用的数据节点的加载完成信息以结束数据加载。在一些实施方式中，元数据信息包括当前所有的数据节点的运行状态；根据元数据信息获得当前可用的数据节点信息为：根据元数据信息获得当前所有的数据节点的运行状态并提取出当前可用的数据节点信息。在一些实施方式中，当前可...

【技术保护点】
1.一种Hadoop的数据快速加载方法，其特征在于，包括使用DLS执行以下步骤：从元数据节点实时采集元数据信息，并根据所述元数据信息获得当前可用的数据节点信息；将本数据节点的待加载数据根据所述数据节点信息分割为多个数据分段，并使当前可用的所述数据节点同时加载所述多个数据分段；接收所有当前可用的所述数据节点的加载完成信息以结束数据加载。

【技术特征摘要】
1.一种Hadoop的数据快速加载方法，其特征在于，包括使用DLS执行以下步骤：从元数据节点实时采集元数据信息，并根据所述元数据信息获得当前可用的数据节点信息；将本数据节点的待加载数据根据所述数据节点信息分割为多个数据分段，并使当前可用的所述数据节点同时加载所述多个数据分段；接收所有当前可用的所述数据节点的加载完成信息以结束数据加载。2.根据权利要求1所述的方法，其特征在于，所述元数据信息包括当前所有的所述数据节点的运行状态；根据所述元数据信息获得当前可用的所述数据节点信息为：根据所述元数据信息获得当前所有的所述数据节点的运行状态并提取出当前可用的所述数据节点信息。3.根据权利要求1所述的方法，其特征在于，当前可用的所述数据节点信息包括当前可用的所述数据节点的数量；将本数据节点的待加载数据根据所述数据节点信息分割为多个数据分段为：将本数据节点的待加载数据分割为与当前可用的所述数据节点的数量相同的数据分段。4.根据权利要求3所述的方法，其特征在于，每个所述数据分段的大小相等、或每个所述数据分段的大小分别根据每个当前可用的所述数据节点的数据加载能力确定。5.根据权利要求1所述的方法，其特征在于，使当前可用的所述数据节点同时加载所述多个数据分段为：使当前可用的所述数据节点将所述多个数据分段同时地并行加载到各自的HDFS中。6.根据权利要求1所述的方法，其特征在于，当前可用的所述数据节点包括或不包括本数据节点。7.根据权利要求1所述的方法，其特征在于，在使当前可用的所述数据节点同时加载所述多个数据分段之后、并且接收所有当前可用的所述数据节点的加载完成信息之前，所述...

【专利技术属性】
技术研发人员：魏本帅，杜彦魁，
申请(专利权)人：郑州云海信息技术有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人