数据处理方法和装置、存储介质和电子装置制造方法及图纸

技术编号:24409877 阅读:51 留言:0更新日期:2020-06-06 08:43
本申请提供了一种数据处理方法和装置、存储介质和电子装置,其中,该方法包括:从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;对中间数据进行解析,提取中间数据的目标字段的目标字段信息;将目标字段信息组装为目标数据格式的目标数据;将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。通过本申请,解决了相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题,简化了数据转换操作,提高了业务开发效率。

Data processing method and device, storage medium and electronic device

【技术实现步骤摘要】
数据处理方法和装置、存储介质和电子装置
本申请涉及计算机领域,尤其涉及一种数据处理方法和装置、存储介质和电子装置。
技术介绍
目前,基于大数据与云计算,很多业务常常采用HBase等数据库进行海量数据存储。由于一般的HBase存储中常常用二进制的PB格式进行数据存储,且每个Column(列)中存储的信息很多,而在实际业务方使用时,经常需要采用批处理的方式进行读取,如果直接读取整个HBase数据再抽取解析则会造成相当的资源浪费和效率降低,开发和维护成本普遍较高。因此,在实际应用中,会将业务方使用到的数据部分(可能只占整个HBase数据的很小一部分)预先抽取到Hive中,方便业务方使用。然而,将HBase数据抽取到Hive的过程是通过PB硬编码的方式实现的,即,每次需要通过修改代码编译打包等一系列方式来增加或者修改Hive中的字段,操作繁琐易出错,导致业务开发效率很低。因此,相关技术中的数据抽取方式存在由于操作繁琐易出错导致的业务开发效率很低的问题。
技术实现思路
本申请实施例提供了一种数据处理方法和装置、存储介质和电子装置,以至少解决相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题。根据本申请实施例的一个方面,提供了一种数据处理方法,包括:从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;对中间数据进行解析,提取中间数据的目标字段的目标字段信息;将目标字段信息组装为目标数据格式的目标数据;将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。可选地,在从源数据库中读取源数据格式的源数据之前,上述方法还包括:读取配置信息,其中,配置信息包括:用于表示目标字段在中间数据格式中的路径的路径信息;根据路径信息,构建与中间数据格式对应的解析器,其中,解析器用于从中间数据中提取目标字段信息。可选地,配置信息还包括用于表示目标数据表的数据表信息,在读取配置信息之后,上述方法还包括:根据数据表信息,构建目标数据表模式的目标数据表,其中,目标数据表模式与目标数据格式对应。可选地,对中间数据进行解析,提取中间数据的目标字段的目标字段信息包括:使用解析器对中间数据进行解析,按照JSON路径提取中间数据的目标字段的目标字段信息,其中,中间数据格式为JSON格式,JSON路径为JSON格式中与目标业务对应的目标字段的路径。根据本申请实施例的另一个方面,提供了一种数据处理装置,包括:第一读取单元,用于从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;转换单元,用于将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;提取单元,用于对中间数据进行解析,提取中间数据的目标字段的目标字段信息;组装单元,用于将目标字段信息组装为目标数据格式的目标数据;保存单元,用于将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。可选地,上述装置还包括:第二读取单元,用于在从源数据库中读取源数据格式的源数据之前,读取配置信息,其中,配置信息包括:用于表示目标字段在中间数据格式中的路径的路径信息;第一构建单元,用于根据路径信息,构建与中间数据格式对应的解析器,其中,解析器用于从中间数据中提取目标字段信息。可选地,配置信息还包括用于表示目标数据表的数据表信息,上述装置还包括:第二构建单元,用于在读取配置信息之后,根据数据表信息,构建目标数据表模式的目标数据表,其中,目标数据表模式与目标数据格式对应。可选地,提取单元包括:使用解析器对中间数据进行解析,按照JSON路径提取中间数据的目标字段的目标字段信息,其中,中间数据格式为JSON格式,JSON路径为JSON格式中与目标业务对应的目标字段的路径。通过本申请,采用具有层级关系的中间数据格式进行数据转换的方式,从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;对中间数据进行解析,提取中间数据的目标字段的目标字段信息;将目标字段信息组装为目标数据格式的目标数据;将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据,由于采用可以方便与其他数据格式转换的中间数据格式(例如,JSON格式、xml),可以简化数据转换操作,避免转换操作中存在的错误,达到降低业务开发成本和维护成本,提高业务开发效率的技术效果,从而解决了相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是根据本申请实施例的一种可选的服务器的硬件结构框图;图2是根据本申请实施例的一种可选的数据处理方法的流程图;图3是根据本申请实施例的一种可选的数据处理方法的示意图;图4是根据本申请实施例的另一种可选的数据处理方法的示意图;图5是根据本申请实施例的另一种可选的数据处理方法的流程图;图6是根据本申请实施例的一种可选的数据处理装置的结构框图。具体实施方式下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。下面对本申请实施例中涉及到的技术术语进行如下解释说明:HBase:HadoopDatabase,一种分布式计算数据库;HDFS:HadoopDistributedFileSystem,Hadoop分布式文件系统;Hive:一种基于Hadoop的数据仓库工具;JSON:JavaScriptObjectNotation,JS对象简谱;PB格式:ProtoBuf格式。根据本申请实施例的一个方面,提供了一种数据处理方法。可选地,该方法可以在服务器或者类似的运算装置中执行。以运行在服务器上为例,图1是根据本申请实施例的一种可选的服务器的硬件结构框图。如图1所示,服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于MCU(Microcontrolle本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n从源数据库中读取源数据格式的源数据,其中,所述源数据库中存储有多个业务的业务数据,所述源数据为与所述多个业务中的目标业务对应的业务数据;/n将所述源数据转换为中间数据格式的中间数据,其中,所述中间数据格式为具有层级关系的数据格式;/n对所述中间数据进行解析,提取所述中间数据的目标字段的目标字段信息;/n将所述目标字段信息组装为目标数据格式的目标数据;/n将所述目标数据保存到目标数据表中,其中,所述目标数据表用于保存所述目标数据格式的数据。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
从源数据库中读取源数据格式的源数据,其中,所述源数据库中存储有多个业务的业务数据,所述源数据为与所述多个业务中的目标业务对应的业务数据;
将所述源数据转换为中间数据格式的中间数据,其中,所述中间数据格式为具有层级关系的数据格式;
对所述中间数据进行解析,提取所述中间数据的目标字段的目标字段信息;
将所述目标字段信息组装为目标数据格式的目标数据;
将所述目标数据保存到目标数据表中,其中,所述目标数据表用于保存所述目标数据格式的数据。


2.根据权利要求1所述的方法,其特征在于,在从所述源数据库中读取所述源数据格式的所述源数据之前,所述方法还包括:
读取配置信息,其中,所述配置信息包括:用于表示所述目标字段在所述中间数据格式中的路径的路径信息;
根据所述路径信息,构建与所述中间数据格式对应的解析器,其中,所述解析器用于从所述中间数据中提取所述目标字段信息。


3.根据权利要求2所述的方法,其特征在于,所述配置信息还包括用于表示所述目标数据表的数据表信息,在所述读取配置信息之后,所述方法还包括:
根据所述数据表信息,构建目标数据表模式的所述目标数据表,其中,所述目标数据表模式与所述目标数据格式对应。


4.根据权利要求2或3所述的方法,其特征在于,对所述中间数据进行解析,提取所述中间数据的目标字段的目标字段信息包括:
使用所述解析器对所述中间数据进行解析,按照JSON路径提取所述中间数据的目标字段的目标字段信息,其中,所述中间数据格式为JSON格式,所述JSON路径为所述JSON格式中与所述目标业务对应的所述目标字段的路径。


5.一种数据装置,其特征在于,包括:
第一读取单元,用于从源数据库中读取源数据格式的源数据,其中,所述源数据库中存储有多个业务的业务数据,所述源数据为与所述多个业务中的目标业务对应的业务数据;...

【专利技术属性】
技术研发人员:祝梦遥李仓良杨学毅
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1