【技术实现步骤摘要】
一种基于HDFS启动并行加载元数据的方法及装置
本申请涉及计算机
,特别涉及一种基于HDFS启动并行加载元数据的方法、装置、设备及可读存储介质。
技术介绍
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop主要实现了一个分布式文件系统HDFS、分布式计算框架MapReduce和分布式资源调度管理框架YARN,其中HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件系统中的数据。事实上该系统实现的HDFS已被公众认为是大数据存储的标准。在整个HDFS运行期间,所有元数据均在NameNode的内存集中管理。为了更好的容错能力,NameNode会周期进行检查监测点,将其中的一部分元数据持久化磁盘上,即二进制文件FSImage,这样的话即使NameNode出现异常也能从持久化设备上恢复元数据,保证了数据的安全可靠。HDFS启动过程中耗时阶段主要在Nam ...
【技术保护点】
1.一种基于HDFS启动并行加载元数据的方法,其特征在于,包括:/n在HDFS启动过程中,确定待加载至内存的元数据的数据量;/n根据所述数据量和当前主机的状态信息,确定用于执行元数据加载操作的线程的目标数量;/n生成所述目标数量的线程;/n并行调用所述目标数量的线程,将所述待加载至内存的元数据加载至内存中。/n
【技术特征摘要】
1.一种基于HDFS启动并行加载元数据的方法,其特征在于,包括:
在HDFS启动过程中,确定待加载至内存的元数据的数据量;
根据所述数据量和当前主机的状态信息,确定用于执行元数据加载操作的线程的目标数量;
生成所述目标数量的线程;
并行调用所述目标数量的线程,将所述待加载至内存的元数据加载至内存中。
2.如权利要求1所述的方法,其特征在于,所述根据所述数据量和当前主机的状态信息,确定用于执行元数据加载操作的线程的目标数量,包括:
根据所述数据量以及当前主机的CPU信息、内存信息和负载信息,确定用于执行元数据加载操作的线程的目标数量。
3.如权利要求2所述的方法,其特征在于,所述在HDFS启动过程中,确定待加载至内存的元数据的数据量,包括:
在HDFS启动过程中,确定待加载至内存的元数据的数量级。
4.如权利要求1所述的方法,其特征在于,在所述并行调用所述目标数量的线程,将所述待加载至内存的元数据加载至内存中之前,还包括:
将所述待加载至内存的元数据的原始索引信息转换为可多线程操作的目标索引信息。
5.如权利要求4所述的方法,其特征在于,所述将所述待加载至内存的元数据的原始索引信息转换为可多线程操作的目标索引信息,包括:
根据所述待加载至内存的元数据的原始索引信息,确定所述目标数量的目标索引信息,其中所述目标索引信息与所述线程一一对应。
6.如权利要...
【专利技术属性】
技术研发人员:潘利杰,常洪耀,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。