数据的检测方法、装置、存储介质和电子装置制造方法及图纸

技术编号:30159617 阅读:30 留言:0更新日期:2021-09-25 15:12
本发明专利技术公开了一种数据的检测方法、装置、存储介质和电子装置,其中,上述方法包括:扫描数据集群中至少一个用于存储数据的存储空间;依次读取存储空间的目录中每个文件的最近处理时间,其中,最近处理时间包括如下至少之一:文件的最近修改时间和最近访问时间;如果任意一个文件的最近处理时间与初始运行时间的差值超过阀值,则删除该文件的元数据信息,采用上述技术方案,解决了对数据进行检测的效率低的技术问题。的技术问题。的技术问题。

【技术实现步骤摘要】
数据的检测方法、装置、存储介质和电子装置


[0001]本专利技术涉及数据处理领域,具体而言,涉及一种数据的检测方法、装置、存储介质和电子装置。

技术介绍

[0002]目前,随着各种业务场景的增多,抽取转换加载(Extract

transform

load,简称为ETL)的任务越来越多,大数据集群的空间使用率已经超过百分之六十,名称节点(Name Node)压力也在逐渐增大,如果对其不及时进行清理,后续就需要扩充服务器以提供更多的存储空间,并且需要给Name Node分配更多的内存来缓解压力。
[0003]针对以上问题,大数据集群管理员可以手动通过Shell命令,挨个表去检查数据存储情况和数据使用情况,挨个检查完之后将检查结果汇总成表格(Excel),再根据对应的数据库名和表名匹配上负责人(匹配负责人不准确),然后通知到负责人进行处理,负责人处理完成后反馈给管理员,管理员进行核实。但是这种方式需要耗费大量的时间和精力,从而存在对数据进行检测的效率低的技术问题。
[0004]针对相关技术中,对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据的检测方法,其特征在于,包括:扫描数据集群中至少一个用于存储数据的存储空间;依次读取所述存储空间的目录中每个文件的最近处理时间,其中,所述最近处理时间包括如下至少之一:所述文件的最近修改时间和最近访问时间;如果任意一个文件的最近处理时间与初始运行时间的差值超过阀值,则删除所述文件的元数据信息。2.根据权利要求1所述的方法,其特征在于,在扫描数据集群中至少一个用于存储数据的存储空间时,所述方法还包括:获取所述存储空间内存储的数据数量;基于所述存储空间内存储的数据数量,确定所述存储空间的占用空间。3.根据权利要求2所述的方法,其特征在于,在所述存储空间为数据表的情况下,其中,基于所述存储空间内存储的数据数量,确定所述存储空间的占用空间,包括:遍历所述数据表的内部表路径,并基于所述内部表路径确定所述数据表的层级;统计所述数据表的层级所对应的表级目录下的文件数量;基于所述表级目录下的文件数量,统计所述数据表的所述表级目录下的占用空间。4.根据权利要求1所述的方法,其特征在于,如果任意一个文件的最近处理时间与初始运行时间的差值超过阀值,则确定用于保存所述文件的存储空间为无用区域,并触发提示信息给前端操作者。5.根据权利要求4所述的方法,其特征在于,对所述无用区域进行标记,并查询元数据集合中是否存在与所述无用区域关联的元数据信息,如果存在,则执行删除所述无用区域所关联的...

【专利技术属性】
技术研发人员:董壮
申请(专利权)人:海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1