【技术实现步骤摘要】
跨分布式系统数据处理方法、装置、设备及存储介质
本申请涉及数据处理
,特别涉及一种跨分布式系统数据处理方法、装置、设备及存储介质。
技术介绍
随着信息技术与大数据的飞速发展,数据仓库在软硬件领域、互联网和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存大量的数据文件供分析使用。Hive是基于Hadoop的数据仓库工具,可以把结构化的数据文件映射成数据表,被广泛应用于数据仓库。但是,现有的Hive,并不支持多个分布式文件系统(HadoopDistributedFileSystem,简称HDFS),当数据分布在多个HDFS中时,为了对跨分布式系统的数据进行处理,需要先通过数据拷贝的方式,将多个HDFS中的数据同步到同一HDFS中。这种数据处理方式,不仅浪费存储资源,而且在数据量大时,需要耗费大量的时间进行数据拷贝,数据处理效率低。
技术实现思路
本申请实施例提出一种跨分布式系统数据处理方法、装置、设备及存储介质,用于解决相关技术中,对跨分布式文件系统的数据的处理方式不仅浪费存储资源,而且在数据量大时,需要耗费大量的时间进行数据拷贝,数据处理效率 ...
【技术保护点】
1.一种跨分布式系统数据处理方法,其特征在于,包括:获取数据管理文件的查询请求,所述查询请求中包含第一存储路径及第一用户信息,其中,所述第一存储路径中包括分布式文件系统的路径;根据所述分布式文件系统的路径,从所述分布式文件系统中获取与所述第一用户信息对应的第一数据管理文件。
【技术特征摘要】
1.一种跨分布式系统数据处理方法,其特征在于,包括:获取数据管理文件的查询请求,所述查询请求中包含第一存储路径及第一用户信息,其中,所述第一存储路径中包括分布式文件系统的路径;根据所述分布式文件系统的路径,从所述分布式文件系统中获取与所述第一用户信息对应的第一数据管理文件。2.如权利要求1所述的方法,其特征在于,所述存储路径中还包括至少一层的父级数据管理文件的路径;所述从所述分布式文件系统中获取与所述第一用户信息对应的第一数据管理文件,包括:根据所述分布式文件系统的路径、及所述至少一层的父级数据管理文件的路径,获取所述第一用户信息对应的第一数据管理文件。3.如权利要求1所述的方法,其特征在于,所述查询请求中还包括所述第一数据管理文件的标识;所述从所述分布式文件系统中获取与所述第一用户信息对应的第一数据管理文件之前,还包括:确定所述第一数据管理文件的标识与所述第一用户信息匹配。4.如权利要求1所述的方法,其特征在于,还包括:获取第二数据管理文件的创建请求;判断所述创建请求中是否包含所述第二数据管理文件对应的第二用户信息及父级数据管理文件的存储路径;若是,则根据所述创建请求中的第二用户信息及父级数据管理文件的存储路径,创建所述第二数据管理文件。5.如权利要求4所述的方法,其特征在于,所述判断所述创建请求中是否包含所述第二数据管理文件对应的第二用户信息及父级数据管理文件的存储路径之后,还包括:若否,则获取在所述第二数据管理文件创建之前,最新创建的第三数据管理文件的属性信息,所述属性信息包括以下信息中的至少一个:存储路径及用户信息,其中,第三数据管理文件为所述第二数据管理文件父级的数据管理文件;根据所述第三...
【专利技术属性】
技术研发人员:史鹏宙,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。