文件处理方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:21398880 阅读:21 留言:0更新日期:2019-06-19 06:58
本发明专利技术提出一种文件处理方法、装置、存储介质及计算机设备,文件为数据仓库工具中的文件,数据仓库工具包括目标类型的节点,该方法包括获取目标类型的节点所产生的镜像文件;结合数据仓库工具的目录信息,对镜像文件进行解析得到镜像文件所属的原始文件的信息;根据原始文件的信息,结合预设规则对原始文件进行合并处理。通过本发明专利技术能够实现自动化地识别数据仓库工具运行时所产生的文件,并及时地对文件进行合并处理。

【技术实现步骤摘要】
文件处理方法、装置、存储介质及计算机设备
本专利技术涉及计算机
,尤其涉及一种文件处理方法、装置、存储介质及计算机设备。
技术介绍
数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL(StructuredQueryLanguage,结构化查询语言)功能,可以将SQL语句转换为分布式计算任务执行。数据仓库工具一般运行于Hadoop分布式文件系统上,在运行过程中会产生大量的小文件。小文件的产生可能来自于:数据源导入数据仓库工具时,或者通过读取数据仓库工具的数据表做离线计算时产生。通常对单个文件,计算时需要占掉一个计算进程或者线程,大量的小文件耗费较多的计算资源,因此,有必要对数据仓库工具运行过程中所产生的文件进行处理。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的目的在于提出一种文件处理方法、装置、存储介质及计算机设备,能够实现自动化地识别数据仓库工具运行时所产生的文件,并及时地对文件进行合并处理。为达到上述目的,本专利技术第一方面实施例提出的文件处理方法,所述文件为数据仓库工具中的文件,所述数据仓库工具包括目标类型的节点,包括:获取所述目标类型的节点所产生的镜像文件;结合所述数据仓库工具的目录信息,对所述镜像文件进行解析得到所述镜像文件所属的原始文件的信息;根据所述原始文件的信息,结合预设规则对所述原始文件进行合并处理。本专利技术第一方面实施例提出的文件处理方法,通过获取目标类型的节点所产生的镜像文件;结合数据仓库工具的目录信息,对镜像文件进行解析得到镜像文件所属的原始文件的信息;根据原始文件的信息,结合预设规则对原始文件进行合并处理,能够实现自动化地识别数据仓库工具运行时所产生的文件,并及时地对文件进行合并处理。为达到上述目的,本专利技术第二方面实施例提出的文件处理装置,所述文件为数据仓库工具中的文件,所述数据仓库工具包括目标类型的节点,包括:获取模块,用于获取所述目标类型的节点所产生的镜像文件;解析模块,用于结合所述数据仓库工具的目录信息,对所述镜像文件进行解析得到所述镜像文件所属的原始文件的信息;合并处理模块,用于根据所述原始文件的信息,结合预设规则对所述原始文件进行合并处理。本专利技术第二方面实施例提出的文件处理装置,通过获取目标类型的节点所产生的镜像文件;结合数据仓库工具的目录信息,对镜像文件进行解析得到镜像文件所属的原始文件的信息;根据原始文件的信息,结合预设规则对原始文件进行合并处理,能够实现自动化地识别数据仓库工具运行时所产生的文件,并及时地对文件进行合并处理。为达到上述目的,本专利技术第三方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器被执行时,使得移动终端能够执行一种文件处理方法,所述方法包括:本专利技术第一方面实施例提出的文件处理方法。本专利技术第三方面实施例提出的非临时性计算机可读存储介质,通过获取目标类型的节点所产生的镜像文件;结合数据仓库工具的目录信息,对镜像文件进行解析得到镜像文件所属的原始文件的信息;根据原始文件的信息,结合预设规则对原始文件进行合并处理,能够实现自动化地识别数据仓库工具运行时所产生的文件,并及时地对文件进行合并处理。为达到上述目的,本专利技术第四方面实施例提出的计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行一种文件处理方法,所述文件为数据仓库工具中的文件,所述数据仓库工具包括目标类型的节点,所述方法包括:获取所述目标类型的节点所产生的镜像文件;结合所述数据仓库工具的目录信息,对所述镜像文件进行解析得到所述镜像文件所属的原始文件的信息;根据所述原始文件的信息,结合预设规则对所述原始文件进行合并处理。本专利技术第四方面实施例提出的计算机程序产品,通过获取目标类型的节点所产生的镜像文件;结合数据仓库工具的目录信息,对镜像文件进行解析得到镜像文件所属的原始文件的信息;根据原始文件的信息,结合预设规则对原始文件进行合并处理,能够实现自动化地识别数据仓库工具运行时所产生的文件,并及时地对文件进行合并处理。本专利技术第五方面还提出一种计算机设备,该计算机设备包括壳体、处理器、存储器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器和所述存储器设置在所述电路板上;所述电源电路,用于为所述计算机设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行:获取所述目标类型的节点所产生的镜像文件;结合所述数据仓库工具的目录信息,对所述镜像文件进行解析得到所述镜像文件所属的原始文件的信息;根据所述原始文件的信息,结合预设规则对所述原始文件进行合并处理。本专利技术第五方面实施例提出的计算机设备,通过获取目标类型的节点所产生的镜像文件;结合数据仓库工具的目录信息,对镜像文件进行解析得到镜像文件所属的原始文件的信息;根据原始文件的信息,结合预设规则对原始文件进行合并处理,能够实现自动化地识别数据仓库工具运行时所产生的文件,并及时地对文件进行合并处理。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一实施例提出的文件处理方法的流程示意图;图2为本专利技术实施例的应用场景示意图;图3是本专利技术一实施例提出的文件处理装置的结构示意图;图4是本专利技术另一实施例提出的文件处理装置的结构示意图;图5是本专利技术一个实施例提出的计算机设备的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的文件处理方法的流程示意图。本实施例以文件处理方法被配置为文件处理装置中来举例说明。本实施例中文件处理方法可以被配置在文件处理装置中,文件处理装置可以设置在服务器中,或者也可以设置在电子设备中,本申请实施例对此不作限制。本实施例以文件处理方法被配置在电子设备中为例。文件为数据仓库工具中的文件,数据仓库工具包括目标类型的节点,目标类型的节点可以为元数据管理中心NameNode节点。需要说明的是,本申请实施例的执行主体,在硬件上可以例如为服务器或者电子设备中的中央处理器(CentralProcessingUnit,CPU),在软件上可以例如为服务器或者电子设备中的相关的后台服务,对此不作限制。数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL(StructuredQueryLanguage,结构化查询语言)功能,可以将SQL语句转换为分布式计算任务执行。数据仓库工具一般运行于Hadoop分布式文件系统上,在运行过程中会产生大量的小文件。小文件的产生可能来自于:数据源导入数据仓库工具时,或者通过读取数据仓库工具的数据表做离线计算时产生本文档来自技高网...

【技术保护点】
1.一种文件处理方法,其特征在于,所述文件为数据仓库工具中的文件,所述数据仓库工具包括目标类型的节点,所述方法包括以下步骤:获取所述目标类型的节点所产生的镜像文件;结合所述数据仓库工具的目录信息,对所述镜像文件进行解析得到所述镜像文件所属的原始文件的信息;根据所述原始文件的信息,结合预设规则对所述原始文件进行合并处理。

【技术特征摘要】
1.一种文件处理方法,其特征在于,所述文件为数据仓库工具中的文件,所述数据仓库工具包括目标类型的节点,所述方法包括以下步骤:获取所述目标类型的节点所产生的镜像文件;结合所述数据仓库工具的目录信息,对所述镜像文件进行解析得到所述镜像文件所属的原始文件的信息;根据所述原始文件的信息,结合预设规则对所述原始文件进行合并处理。2.如权利要求1所述的文件处理方法,其特征在于,在所述获取所述目标类型的节点所对应的镜像文件之前,还包括:在所述数据仓库工具运行过程中,将所述目标类型的节点所产生的镜像文件存储至本地存储设备中。3.如权利要求1所述的文件处理方法,其特征在于,所述信息包括:数量和所占用存储空间的大小,所述结合所述数据仓库工具的目录信息,对所述镜像文件进行解析得到所述镜像文件所属的原始文件的信息,包括:结合所述数据仓库工具的目录信息,确定所述数据仓库工具的多个数据库表和多个分区中,与各所述数据库表对应的第一原始文件的信息,以及与各所述分区对应的第二原始文件的信息。4.如权利要求3所述的文件处理方法,其特征在于,所述根据所述原始文件的信息,结合预设规则对所述原始文件进行合并处理,包括:根据各所述第一原始文件的信息,确定各所述数据库表对应的,所述第一原始文件所占用存储空间的大小的第一平均值,并确定各所述分区对应的,所述第二原始文件所占用存储空间的大小的第二平均值;根据所述第一平均值、所述第二平均值,所述第一原始文件的数量,以及所述第二原始文件的数量,结合预设规则对所述原始文件进行合并处理。5.如权利要求4所述的文件处理方法,其特征在于,所述根据所述第一平均值、所述第二平均值,所述第一原始文件的数量,以及所述第二原始文件的数量,结合预设规则对所述原始文件进行合并处理,包括:在所述第一平均值或者第二平均值,小于或者等于第一预设阈值时,对所述第一原始文件或者第二原始文件进行合并处理;和/或,在所述第一原始文件的数量或者所述第二原始文件的数量,大于第二预设阈值时,对所述第一原始文件或者第二原始文件进行合并处理。6.一种文件处理装置,其特征在于,所述文件为数据仓库工具中的文件,所述数据仓库工具包括目标类型的节点,所述装置包括:获取模块,用于获取所述目标类型的节点所产生的镜像文件;解析模块,用于结合所述数据仓库工具的目录信息,对所述镜...

【专利技术属性】
技术研发人员:郑艳涛周一帆庞少强
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1