HDFS空文件定位方法、装置、设备及介质制造方法及图纸

技术编号：36464708 阅读：58 留言：0更新日期：2023-01-25 23:05

本申请提供HDFS空文件定位方法、装置、设备及介质，旨在解决，其中，该方法包括：获取分布式文件系统HDFS的二进制的元数据文件；将所述二进制的元数据文件进行反序列化，得到明文文件；在预建立的Hive表中加载所述明文文件，得到明文文件Hive表；以及，对所述明文文件Hive表中存放空文件列表的文件进行定位，得到定位信息。通过上述方法，本申请能够快速、准确地定位到空文件，提高空文件的定位效率，为空文件的清理提供支撑和便利，有效提高了HDFS的稳定性。稳定性。稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
HDFS空文件定位方法、装置、设备及介质

[0001]本申请涉及计算机
，尤其涉及一种HDFS空文件定位方法、装置、设备及介质。

技术介绍

[0002]HDFS，英文全称为Hadoop Distributed File System，是在大数据领域用的非常多的分布式高可用的文件系统。
[0003]在HDFS的实际使用过程中，其稳定性会随着文件数量的增多而变差，尤其在存在大量无用的空文件的情况下，将进一步导致存储系统的不稳定性。因此，如何快速定位HDFS中的空文件值得研究。
[0004]相关技术中，定位HDFS中的空文件主要通过递归遍历整个HDFS的目录结构树来获取所有的文件列表，继而定位到所有文件列表中的空文件，这种方式会对HDFS造成很大的数据压力，将影响正常数据业务的开展，而且耗时非常长。

技术实现思路

[0005]鉴于上述问题，即HDFS空文件定位过程影响HDFS正常数据业务以及效率低等问题，本申请提供一种HDFS空文件定位方法、装置、设备及介质。
[0006]为了实现上述...

【技术保护点】

【技术特征摘要】
1.一种分布式文件系统HDFS空文件定位方法，其特征在于，包括：获取分布式文件系统HDFS的二进制的元数据文件；将所述二进制的元数据文件进行反序列化，得到明文文件；在预建立的Hive表中加载所述明文文件，得到明文文件Hive表；以及，对所述明文文件Hive表中存放空文件列表的文件进行定位，得到定位信息。2.根据权利要求1所述的方法，其特征在于，在获取分布式文件系统HDFS的二进制的元数据文件之后，以及将所述二进制的元数据文件进行反序列化之前，还包括：将所述二进制的元数据文件推送至与生产环境无关的服务器集群中；所述将所述二进制的元数据文件进行反序列化，包括：在所述服务器集群中将所述二进制的元数据文件进行反序列化。3.根据权利要求1或2所述的方法，其特征在于，所述获取分布式文件系统HDFS的二进制的元数据文件，包括：从分布式文件系统HDFS的元数据节点NameNode中提取二进制的元数据文件。4.根据权利要求1所述的方法，其特征在于，所述将所述二进制的元数据文件进行反序列化，包括：获取所述二进制的元数据文件的结构信息，并基于所述结构信息获取对应的反序列化程序；基于所述反序列化程序将所述二进制的元数据文件进行反序列化。5.根据权利要求1所述的方法，其特征在于，所述对所述明文文件Hive表中存放空文件列表的文件进行定位，得到定位信息，包括：基于对象关系映射框架查询语言HQL对所述明文文件Hive表中存放空文件列表的文件进行定位，得到定位信息。6.根据权利要求1...

【专利技术属性】
技术研发人员：穆纯进，王云朋，
申请(专利权)人：联通数字科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人