【技术实现步骤摘要】
用于分布式文件系统的元数据采集方法及装置
[0001]本专利技术涉及计算机
,尤其涉及一种用于分布式文件系统的元数据采集方法及装置。
技术介绍
[0002]现有Hadoop分布式文件系统(hadoop distributed file system,HDFS)元数据管理主要针对目录、文件、存储空间的查看,需要技术人员通过命令等方式查看这些元数据信息,而无法得知数据量、元数据等信息。现有技术缺乏为数据治理提供依据信息的方法,不方便对HDFS进行管控。
技术实现思路
[0003]本专利技术提供一种用于分布式文件系统的元数据采集方法及装置,用以解决现有技术中缺乏为数据治理提供依据信息的方法,不方便对HDFS数据进行管控的缺陷,实现为数据治理提供依据信息,便于对HDFS数据进行管控。
[0004]本专利技术提供一种用于分布式文件系统的元数据采集方法,包括:获取配置信息,所述配置信息包括待采集的分布式文件系统的主机;
[0005]根据所述配置信息,对所述分布式文件系统的主机依次进行包括目录采集、文 ...
【技术保护点】
【技术特征摘要】
1.一种用于分布式文件系统的元数据采集方法,其特征在于,包括:获取配置信息,所述配置信息包括待采集的分布式文件系统的主机;根据所述配置信息,对所述分布式文件系统的主机依次进行包括目录采集、文件采集和存储空间采集的操作;基于所述目录采集、所述文件采集及所述存储空间采集的操作获取的操作结果,采集数据量大小及元数据信息。2.根据权利要求1所述的用于分布式文件系统的元数据采集方法,其特征在于,所述配置信息包括:所述主机上待采集数据的数据属性;和/或,所述主机上待采集数据的数据属性至少包括以下之一:文件类型、数据类型、数据类型配置项,以及,是否开启安全认证。3.根据权利要求2所述的用于分布式文件系统的元数据采集方法,其特征在于,进行目录采集的操作包括:获取所述目录对应的信息,并基于所述目录对应的信息执行采集操作,其中,所述目录对应的信息包括:目录名称、目录大小以及目录更新时间;进行文件采集操作包括:获取所述文件对应的信息,并基于所述文件对应的信息执行采集操作,其中,所述文件对应的信息包括:文件名、文件大小,以及文件更新时间。4.根据权利要求3所述的用于分布式文件系统的元数据采集方法,其特征在于,所述进行目录采集的操作,包括:在当前目录为第一次被采集的情况下,保存当前目录对应的信息以及所述当前目录下的文件所对应的信息,并获取所述当前目录下的文件中的数据,保存对应的数据存储量;在所述当前目录不是第一次被采集的情况下,确定是否已存在所述当前目录对应的目录名称:若不存在,则保存当前目录对应的信息以及所述当前目录下的文件所对应的信息,并获取所有目录下的文件下的数据,保存对应的数据存储量;若存在,则不保存所有目录对应的信息,并采集所有目录下的文件对应的信息。5.根据权利要求4所述的用于分布式文件系统的元数据采集方法,其特征在于,在确定存在所述当前目录对应的目录名称之后,所述方法还包括:确定所述当前目录中的目录名称在所述主机下是否已经被删除;若已被删除,则删除所述当前目录对应的信息,以及所述目录下的文件对应的信息。6....
【专利技术属性】
技术研发人员:徐彪,齐向东,吴云坤,蒋勇,邹品洛巍,邢云飞,邵锐,冯忠田,何安迪,顾静玲,邓娅婷,何雨薇,杨晓霞,熊攀,
申请(专利权)人:网神信息技术北京股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。