数据处理方法和装置制造方法及图纸

技术编号:15792003 阅读:218 留言:0更新日期:2017-07-09 22:57
本申请公开了一种数据处理方法和装置。其中,该方法包括:将第一数据源的数据与第二数据源的数据进行对接处理,得到对接后的数据,其中,第一数据源和第二数据源为待对接的不同数据源;将对接后的数据生成预设格式文件,其中,预设格式文件为通用的列式存储格式的文件;以及调用预设格式文件,将预设格式文件中对接后的数据加载到数据仓库中。本申请解决了无法实现将不同数据源的数据对接后导入到数据仓库的技术问题。

【技术实现步骤摘要】
数据处理方法和装置
本申请涉及数据处理领域,具体而言,涉及一种数据处理方法和装置。
技术介绍
在数据处理领域,为了能够便于数据分析,通常需要将不同数据源的数据导入到数据仓库中,进行统一管理。专利技术人发现,某些数据源的数据需要与其他的数据源的数据进行对接,这样,能够充分发挥数据的作用。然而现有技术中并没有关于将这些数据导入到数据仓库的方案,因此,无法实现将不同数据源的数据对接后导入到数据仓库。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种数据处理方法和装置,以至少解决无法实现将不同数据源的数据对接后导入到数据仓库的技术问题。根据本申请实施例的一个方面,提供了一种数据处理方法,包括:将第一数据源的数据与第二数据源的数据进行对接处理,得到对接后的数据,其中,所述第一数据源和所述第二数据源为待对接的不同数据源;将所述对接后的数据生成预设格式文件,其中,所述预设格式文件为通用的列式存储格式的文件;以及调用所述预设格式文件,将所述预设格式文件中对接后的数据加载到数据仓库中。进一步地,将第一数据源的数据与第二数据源的数据进行对接处理,得到对接后的数据包括:在所述第一数据源接收到的一份数据日志时,将所述数据日志投放到预设队列中;将所述预设队列中的数据日志与所述第二数据源的数据进行实时对接;或者,批量加载所述第一数据源中的数据日志;将批量加载的数据日志与所述第二数据源的数据进行对接。进一步地,所述方法还包括:接收修改请求;响应所述修改请求,加载目标数据对应的预设格式文件,对所述目标数据对应的预设格式文件进行修改;用修改后的预设格式文件覆盖所述目标数据对应的预设格式文件。进一步地,对所述目标数据对应的预设格式文件进行修改包括:修改所述目标数据对应的预设格式文件中所述修改请求所指示修改的字段;用修改后的预设格式文件覆盖所述目标数据对应的预设格式文件包括:在所述目标数据对应的预设格式文件所在的分区文件夹下,用所述修改后的预设格式文件覆盖掉所述目标数据对应的预设格式文件。进一步地,所述预设格式文件为parquet文件。根据本申请实施例的另一方面,还提供了一种数据处理装置,包括:对接单元,用于将第一数据源的数据与第二数据源的数据进行对接处理,得到对接后的数据,其中,所述第一数据源和所述第二数据源为待对接的不同数据源;生成单元,用于将所述对接后的数据生成预设格式文件,其中,所述预设格式文件为通用的列式存储格式的文件;以及加载单元,用于调用所述预设格式文件,将所述预设格式文件中对接后的数据加载到数据仓库中。进一步地,所述对接单元包括:投放模块,用于在所述第一数据源接收到的一份数据日志时,将所述数据日志投放到预设队列中;第一对接模块,用于将所述预设队列中的数据日志与所述第二数据源的数据进行实时对接;或者,所述对接单元包括:记载模块,用于批量加载所述第一数据源中的数据日志;第二对接模块,用于将批量加载的数据日志与所述第二数据源的数据进行对接。进一步地,所述装置还包括:接收单元,用于接收修改请求;修改单元,用于响应所述修改请求,加载目标数据对应的预设格式文件,对所述目标数据对应的预设格式文件进行修改;覆盖单元,用于用修改后的预设格式文件覆盖所述目标数据对应的预设格式文件。进一步地,所述修改单元包括:修改模块,用于修改所述目标数据对应的预设格式文件中所述修改请求所指示修改的字段;所述覆盖单元包括:覆盖模块,用于在所述目标数据对应的预设格式文件所在的分区文件夹下,用所述修改后的预设格式文件覆盖掉所述目标数据对应的预设格式文件。进一步地,所述预设格式文件为parquet文件。根据本申请实施例,通过将第一数据源的数据与第二数据源的数据进行对接处理,得到对接后的数据,其中,第一数据源和第二数据源为待对接的不同数据源;将对接后的数据生成预设格式文件,其中,预设格式文件为通用的列式存储格式的文件;调用预设格式文件,将预设格式文件中对接后的数据加载到数据仓库中。通过将对接后的数据生成预设格式文件,该文件可以兼容不同的数据源,这样,可以利用预设格式文件的通用列式存储格式,将不同数据源对接后的数据导入到数据仓库中,解决了无法实现将不同数据源的数据对接后导入到数据仓库的技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的数据处理方法的流程图;图2是根据本申请实施例的数据处理装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请实施例,提供了一种数据处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本申请实施例的数据处理方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,将第一数据源的数据与第二数据源的数据进行对接处理,得到对接后的数据,其中,第一数据源和第二数据源为待对接的不同数据源。第一数据源可以是用于存储监测得到的数据的数据源,例如日志服务器,用于收集日志数据的服务器。第二数据源可以是与第一数据源记录数据不同的第三方数据源,但第一数据源记录的数据与第二数据源记录的数据之间存在关联关系。例如,第一数据源为记录客户的线上访问或购买记录的数据,第二数据源记录的是线下客户的购买记录数据或者客户关系管理系统(CustomerRelationshipManagement,简称为CRM)记录的数据。本申请实施例中,由于第一数据源的数据和第二数据源的数据具有相关性,因此,在将其导入到数据仓库之前,先对这些数据进行对接,得到对接后的数据。步骤S104,将对接后的数据生成预设格式文件,其中,预设格式文件为通用的列式存储格式的文件。本实施例中,将对接后的数据生成预设格式文件,该文件具有通用的列式存储格式,可以是例如parquet文件等。由于预设格式文件具有统一的存储格式,通过该文件的文件格式,能够兼容多种不同类型的第三方数据源。步骤S106,调用预设格式文件,将预设格式文件中对接后的数据加载到数据仓库中。通过调用上述预设格式文件,将对接本文档来自技高网
...
数据处理方法和装置

【技术保护点】
一种数据处理方法,其特征在于,包括:将第一数据源的数据与第二数据源的数据进行对接处理,得到对接后的数据,其中,所述第一数据源和所述第二数据源为待对接的不同数据源;将所述对接后的数据生成预设格式文件,其中,所述预设格式文件为通用的列式存储格式的文件;以及调用所述预设格式文件,将所述预设格式文件中对接后的数据加载到数据仓库中。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:将第一数据源的数据与第二数据源的数据进行对接处理,得到对接后的数据,其中,所述第一数据源和所述第二数据源为待对接的不同数据源;将所述对接后的数据生成预设格式文件,其中,所述预设格式文件为通用的列式存储格式的文件;以及调用所述预设格式文件,将所述预设格式文件中对接后的数据加载到数据仓库中。2.根据权利要求1所述的方法,其特征在于,将第一数据源的数据与第二数据源的数据进行对接处理,得到对接后的数据包括:在所述第一数据源接收到的一份数据日志时,将所述数据日志投放到预设队列中;将所述预设队列中的数据日志与所述第二数据源的数据进行实时对接;或者,批量加载所述第一数据源中的数据日志;将批量加载的数据日志与所述第二数据源的数据进行对接。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收修改请求;响应所述修改请求,加载目标数据对应的预设格式文件,对所述目标数据对应的预设格式文件进行修改;用修改后的预设格式文件覆盖所述目标数据对应的预设格式文件。4.根据权利要求3所述的方法,其特征在于,对所述目标数据对应的预设格式文件进行修改包括:修改所述目标数据对应的预设格式文件中所述修改请求所指示修改的字段;用修改后的预设格式文件覆盖所述目标数据对应的预设格式文件包括:在所述目标数据对应的预设格式文件所在的分区文件夹下,用所述修改后的预设格式文件覆盖掉所述目标数据对应的预设格式文件。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述预设格式文件为parquet文件。6.一种数据处理装置,其特征在...

【专利技术属性】
技术研发人员:洪超
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1