【技术实现步骤摘要】
数据处理方法及装置、电子设备和存储介质
[0001]本公开涉及大数据运维
,具体而言,涉及一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。
技术介绍
[0002]Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive作为数据仓库主要技术方案之一,其提供的类SQL处理方式已广泛应用到各种大数据离线处理系统上。
[0003]由于Hive数据是存储在传统的Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)上,因此,不合理的使用Hive可能会影响大数据集群性能,例如Hive表Block块大小问题、Hive表小文件问题等诸如此类。同时,Hive数仓运维人员也迫切需要全方位了解当前Hive表的存储状态,以便将未知隐患提前暴露出来。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取分布式文件系统中原始数据对应的镜像文件,以及获取所述原始数据对应的初始元数据;分别创建所述镜像文件与所述初始元数据各自对应的镜像文件元数据表与元数据结果表;基于所述镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成所述原始数据对应的业务属性的属性统计结果表;对所述属性统计结果表进行数据筛选处理,得到所述业务属性对应的目标属性统计数据。2.根据权利要求1所述的方法,其特征在于,所述获取分布式文件系统中原始数据对应的镜像文件,包括:响应于镜像文件提取指令,从所述分布式文件系统中获取所述原始数据对应的镜像文件;对所述进行镜像文件进行文件解析处理,得到解析镜像文件;将所述解析镜像文件存储至所述分布式文件系统的第一存储路径。3.根据权利要求1所述的方法,其特征在于,所述获取所述原始数据对应的初始元数据,包括:将所述分布式文件系统的执行端连接至所述原始数据的元数据存储库;基于所述执行端生成远程交互指令,基于所述远程交互指令从所述元数据存储库中获取所述初始元数据;将所述初始元数据存储至所述分布式文件系统的第二存储路径。4.根据权利要求3所述的方法,其特征在于,所述基于所述远程交互指令从所述元数据存储库中获取所述初始元数据,包括:获取预先构建的查询脚本,从所述元数据存储库获取初始元数据表;基于所述查询脚本对所述初始元数据表进行解析处理,得到元数据结果表;获取数据抽取组件,采用数据抽取组件将所述元数据结果表存储至所述分布式文件系统的第二存储路径,作为所述初始元数据。5.根据权利要求1所述的方法,其特征在于,所述分别创建所述镜像文件与所述初始元数据各自对应的镜像文件元数据表与元数据结果表,包括:在数据仓库中创建所述镜像文件对应的元数据表,作为所述镜像文件元数据表;在所述数据仓库中创建所述初始元数据对应的元数据表,作为所述元数据结果表;将所述镜像文件元数据表与所述元数据结果表,作为所述分布式文件系统中数据文件的外部表。6.根据权利要求1所述的方法,其特征在于,所述基于所述镜像文件元数据表与元数据结果表各自对应的临时表进行合并解析处理,生成所述原始数据对应的业务属性的属性统计结果表,包括:分别创建所述镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表;对所述镜像文件临时表与所述元数据临时表进行合并处理,生成合并数据表;
对所述合并数据表进行解析处理,生成所述属性统计结果表。7.根据权利要求6所述的方法,其特征在于,所述分别创建所述镜像文件元数据表与元数据结果表,各自对应的镜像文件临时表与元数据临时表,包括:对所述镜像文件元数据表进行聚合分组处理,得到所述镜像文件元数据表对应的镜像文件临时表;对所述元数据结果表进行分区聚合处理,得到所述元数据结...
【专利技术属性】
技术研发人员:李晓明,
申请(专利权)人:长鑫存储技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。