一种基于HDFS启动并行加载元数据的方法及装置制造方法及图纸

技术编号：24888317 阅读：48 留言：0更新日期：2020-07-14 18:15

本申请公开了一种基于HDFS启动并行加载元数据的方法，包括：在HDFS启动过程中，确定待加载至内存的元数据的数据量；根据该数据量和当前主机的状态信息，确定用于执行元数据加载操作的线程的目标数量；生成目标数量的线程；并行调用目标数量的线程，将待加载至内存的元数据加载至内存中。可见，该方法能够根据待加载的元数据的数据量以及主机的状态信息，自动得出合理的线程数量，以便后续并行调用多线程执行元数据的加载操作，避免了人工设置线程数量的过程，提升了元数据加载效率。此外，本申请还提供了一种基于HDFS启动并行加载元数据的装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于HDFS启动并行加载元数据的方法及装置
本申请涉及计算机
，特别涉及一种基于HDFS启动并行加载元数据的方法、装置、设备及可读存储介质。
技术介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构，Hadoop主要实现了一个分布式文件系统HDFS、分布式计算框架MapReduce和分布式资源调度管理框架YARN，其中HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。事实上该系统实现的HDFS已被公众认为是大数据存储的标准。在整个HDFS运行期间，所有元数据均在NameNode的内存集中管理。为了更好的容错能力，NameNode会周期进行检查监测点，将其中的一部分元数据持久化磁盘上，即二进制文件FSImage，这样的话即使NameNode出现异常也能从持久化设备上恢复元数据，保证了数据的安全可靠。HDFS启动过程中耗时阶段主要在Nam...

【技术保护点】
1.一种基于HDFS启动并行加载元数据的方法，其特征在于，包括：/n在HDFS启动过程中，确定待加载至内存的元数据的数据量；/n根据所述数据量和当前主机的状态信息，确定用于执行元数据加载操作的线程的目标数量；/n生成所述目标数量的线程；/n并行调用所述目标数量的线程，将所述待加载至内存的元数据加载至内存中。/n

【技术特征摘要】
1.一种基于HDFS启动并行加载元数据的方法，其特征在于，包括：
在HDFS启动过程中，确定待加载至内存的元数据的数据量；
根据所述数据量和当前主机的状态信息，确定用于执行元数据加载操作的线程的目标数量；
生成所述目标数量的线程；
并行调用所述目标数量的线程，将所述待加载至内存的元数据加载至内存中。

2.如权利要求1所述的方法，其特征在于，所述根据所述数据量和当前主机的状态信息，确定用于执行元数据加载操作的线程的目标数量，包括：
根据所述数据量以及当前主机的CPU信息、内存信息和负载信息，确定用于执行元数据加载操作的线程的目标数量。

3.如权利要求2所述的方法，其特征在于，所述在HDFS启动过程中，确定待加载至内存的元数据的数据量，包括：
在HDFS启动过程中，确定待加载至内存的元数据的数量级。

4.如权利要求1所述的方法，其特征在于，在所述并行调用所述目标数量的线程，将所述待加载至内存的元数据加载至内存中之前，还包括：
将所述待加载至内存的元数据的原始索引信息转换为可多线程操作的目标索引信息。

5.如权利要求4所述的方法，其特征在于，所述将所述待加载至内存的元数据的原始索引信息转换为可多线程操作的目标索引信息，包括：
根据所述待加载至内存的元数据的原始索引信息，确定所述目标数量的目标索引信息，其中所述目标索引信息与所述线程一一对应。

6.如权利要...

【专利技术属性】
技术研发人员：潘利杰，常洪耀，
申请(专利权)人：苏州浪潮智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人