【技术实现步骤摘要】
HDFS空文件定位方法、装置、设备及介质
[0001]本申请涉及计算机
,尤其涉及一种HDFS空文件定位方法、装置、设备及介质。
技术介绍
[0002]HDFS,英文全称为Hadoop Distributed File System,是在大数据领域用的非常多的分布式高可用的文件系统。
[0003]在HDFS的实际使用过程中,其稳定性会随着文件数量的增多而变差,尤其在存在大量无用的空文件的情况下,将进一步导致存储系统的不稳定性。因此,如何快速定位HDFS中的空文件值得研究。
[0004]相关技术中,定位HDFS中的空文件主要通过递归遍历整个HDFS的目录结构树来获取所有的文件列表,继而定位到所有文件列表中的空文件,这种方式会对HDFS造成很大的数据压力,将影响正常数据业务的开展,而且耗时非常长。
技术实现思路
[0005]鉴于上述问题,即HDFS空文件定位过程影响HDFS正常数据业务以及效率低等问题,本申请提供一种HDFS空文件定位方法、装置、设备及介质。
[0006]为了实现上述 ...
【技术保护点】
【技术特征摘要】
1.一种分布式文件系统HDFS空文件定位方法,其特征在于,包括:获取分布式文件系统HDFS的二进制的元数据文件;将所述二进制的元数据文件进行反序列化,得到明文文件;在预建立的Hive表中加载所述明文文件,得到明文文件Hive表;以及,对所述明文文件Hive表中存放空文件列表的文件进行定位,得到定位信息。2.根据权利要求1所述的方法,其特征在于,在获取分布式文件系统HDFS的二进制的元数据文件之后,以及将所述二进制的元数据文件进行反序列化之前,还包括:将所述二进制的元数据文件推送至与生产环境无关的服务器集群中;所述将所述二进制的元数据文件进行反序列化,包括:在所述服务器集群中将所述二进制的元数据文件进行反序列化。3.根据权利要求1或2所述的方法,其特征在于,所述获取分布式文件系统HDFS的二进制的元数据文件,包括:从分布式文件系统HDFS的元数据节点NameNode中提取二进制的元数据文件。4.根据权利要求1所述的方法,其特征在于,所述将所述二进制的元数据文件进行反序列化,包括:获取所述二进制的元数据文件的结构信息,并基于所述结构信息获取对应的反序列化程序;基于所述反序列化程序将所述二进制的元数据文件进行反序列化。5.根据权利要求1所述的方法,其特征在于,所述对所述明文文件Hive表中存放空文件列表的文件进行定位,得到定位信息,包括:基于对象关系映射框架查询语言HQL对所述明文文件Hive表中存放空文件列表的文件进行定位,得到定位信息。6.根据权利要求1...
【专利技术属性】
技术研发人员:穆纯进,王云朋,
申请(专利权)人:联通数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。