一种提升大数据平台启动效率的方法及装置制造方法及图纸

技术编号:40983927 阅读:19 留言:0更新日期:2024-04-18 21:28
本发明专利技术公开一种提升大数据平台启动效率的方法及装置,其中方法包括:元数据存储改造,对NameNode元数据进行KV化改造,把元数据存储在RocksDB中,数据结构按照文件/目录信息和Block信息,分别设计;缓存热点元数据,通过设置大容量的RocksDB缓存来缓存热点元数据,以提高读取元数据的速度;对元数据压缩,NameNode启动时会读取数据的大小,通过开启RocksDB的压缩周期性的对数据进行压缩;Write‑Ahead‑Log代替journalNode,NameNode的元数据同时写入两份:Write‑Ahead‑Log和内存,Write‑Ahead‑Log以文件形式存储在磁盘中,并且按照顺序追加写入数据。本发明专利技术一种提升大数据平台启动效率的方法及装置,将NameNode元数据存储到RocksDB键值数据库中,利用RocksDB的高性能读写能力,大幅缩短启动时间,减少业务中断时间,提高大数据平台namenode主备切换效率。

【技术实现步骤摘要】

本专利技术涉及读写存储领域,尤其是一种提升大数据平台启动效率的方法及装置


技术介绍

1、一个hadoop大数据集群由多台服务器组成,在大规模的集群,服务器节点可达到成千上万台。存储数据量大小达到pb级别,文件个数达到几亿。在大数据集群整个运行期间,所有的元数据都在namenode内存集中管理,元数据是整个集群的核心元素,包含有文件和目录属性、记录datanode相关信息等。根据经验每百万数据块需要占用1g内存,内存会成为元数据扩展上限,对于大规模集群必须配置大内存的namenode主机,由于宕机、断电等异常情况,内存中的元数据会丢失,影响整个集群运行,为防止内存数据丢失,namenode会周期进行checkpoint,把元数据写到磁盘等持久化设备上,即fsimage文件。在二次checkpoint之间对namespace写操作实时写入editlog文件,通过这种方式可以保证元数据的绝对安全可靠。

2、大数据集群在启动过程中,会加载之前保存的元数据信息。分以下几个阶段:

3、(1)、文件系统影像加载

4、fsimage是本文档来自技高网...

【技术保护点】

1.一种提升大数据平台启动效率的方法,其特征在于,该方法包括:

2.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述S01中文件/目录信息的数据结构包括:使用文件或目录的路径作为主键,用于文件或者目录进行数据定位查询。

3.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述S01中文件/目录信息的存储,用于存储每个文件或目录的信息。

4.根据权利要求3所述的提升大数据平台启动效率的方法,其特征在于,所述S01中存储每个文件或目录的信息包括:组成列族与属性列族,

5.根据权利要求1所述的提升大数据平台启动效率...

【技术特征摘要】

1.一种提升大数据平台启动效率的方法,其特征在于,该方法包括:

2.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述s01中文件/目录信息的数据结构包括:使用文件或目录的路径作为主键,用于文件或者目录进行数据定位查询。

3.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述s01中文件/目录信息的存储,用于存储每个文件或目录的信息。

4.根据权利要求3所述的提升大数据平台启动效率的方法,其特征在于,所述s01中存储每个文件或目录的信息包括:组成列族与属性列族,

5.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述s01中block信息的数据结构,block块的id作为主键,用于根据block块定位所在的datanode节点以及位置信息。

6.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述s01中block信息的存储,使用多个列...

【专利技术属性】
技术研发人员:张强
申请(专利权)人:中盈优创资讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1