【技术实现步骤摘要】
本专利技术涉及读写存储领域,尤其是一种提升大数据平台启动效率的方法及装置。
技术介绍
1、一个hadoop大数据集群由多台服务器组成,在大规模的集群,服务器节点可达到成千上万台。存储数据量大小达到pb级别,文件个数达到几亿。在大数据集群整个运行期间,所有的元数据都在namenode内存集中管理,元数据是整个集群的核心元素,包含有文件和目录属性、记录datanode相关信息等。根据经验每百万数据块需要占用1g内存,内存会成为元数据扩展上限,对于大规模集群必须配置大内存的namenode主机,由于宕机、断电等异常情况,内存中的元数据会丢失,影响整个集群运行,为防止内存数据丢失,namenode会周期进行checkpoint,把元数据写到磁盘等持久化设备上,即fsimage文件。在二次checkpoint之间对namespace写操作实时写入editlog文件,通过这种方式可以保证元数据的绝对安全可靠。
2、大数据集群在启动过程中,会加载之前保存的元数据信息。分以下几个阶段:
3、(1)、文件系统影像加载
...
【技术保护点】
1.一种提升大数据平台启动效率的方法,其特征在于,该方法包括:
2.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述S01中文件/目录信息的数据结构包括:使用文件或目录的路径作为主键,用于文件或者目录进行数据定位查询。
3.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述S01中文件/目录信息的存储,用于存储每个文件或目录的信息。
4.根据权利要求3所述的提升大数据平台启动效率的方法,其特征在于,所述S01中存储每个文件或目录的信息包括:组成列族与属性列族,
5.根据权利要求1所述的提
...【技术特征摘要】
1.一种提升大数据平台启动效率的方法,其特征在于,该方法包括:
2.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述s01中文件/目录信息的数据结构包括:使用文件或目录的路径作为主键,用于文件或者目录进行数据定位查询。
3.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述s01中文件/目录信息的存储,用于存储每个文件或目录的信息。
4.根据权利要求3所述的提升大数据平台启动效率的方法,其特征在于,所述s01中存储每个文件或目录的信息包括:组成列族与属性列族,
5.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述s01中block信息的数据结构,block块的id作为主键,用于根据block块定位所在的datanode节点以及位置信息。
6.根据权利要求1所述的提升大数据平台启动效率的方法,其特征在于,所述s01中block信息的存储,使用多个列...
【专利技术属性】
技术研发人员:张强,
申请(专利权)人:中盈优创资讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。