一种跨数据源的数据处理方法及装置制造方法及图纸

技术编号:15910784 阅读:42 留言:0更新日期:2017-08-01 22:29
本申请涉及数据库技术领域,尤其涉及一种跨数据源的数据处理方法及装置,用以解决现有的数据处理方式浪费存储资源,数据处理效率较低的问题。本申请实施例提供一种跨数据源的数据处理方法包括:在第一数据源中查询目标数据集合;针对所述目标数据集合中的每一条第一数据记录,根据该条第一数据记录中的匹配参数信息,查询对应该条第一数据记录的第二数据记录,该条第二数据记录中包含所述匹配参数信息;将所述目标数据集合中的每一条第一数据记录和对应该条第一数据记录的第二数据记录进行合并,得到合并后的数据集合。

Data processing method and device for cross data source

The utility model relates to the technical field of database, in particular to a data processing method and a device for a cross data source, so as to solve the problems that the existing data processing mode wastes the storage resources and the data processing efficiency is low. The embodiment of the application include a cross data processing method: query in the first data source object data set; for every one of the first data record the target data set, according to the information of the parameter matching of a first data record, query second data records corresponding to the first data record that contains the information of the parameter matching of the second data records; each one first data record of the target data set and the second data records should be the first recorded data are merged, get the merged data set.

【技术实现步骤摘要】
一种跨数据源的数据处理方法及装置
本申请涉及数据库
,尤其涉及一种跨数据源的数据处理方法及装置。
技术介绍
对来自不同数据源的数据进行加工处理是数据库处理中经常涉及的问题。目前,解决此问题的常规方案是将不同数据源的数据冗余到同一数据源,然后在同一数据源中执行跨表操作。比如,对于两个不在同一数据库上的表A和表B,当需要同时针对这两个表进行数据处理时,常规办法是将表B的所有数据都添加到表A所在的数据库中,或者将表A的所有数据都添加到表B所在的数据库中,最终使得表A与表B位于同一数据库中,然后,在该同一数据库中执行跨表操作。上述方式实现简单,但是却需要耗费大量的存储资源,尤其是在大数据处理中,由于每一张数据表的容量都非常大,这种方式无疑会造成存储资源的巨大浪费。另外,在将一个数据源的数据表添加到另一个数据源后,还需要在该另一个数据源中执行跨数据表的操作,数据处理效率较低。
技术实现思路
本申请实施例提供一种跨数据源的数据处理方法及装置,用以解决现有的数据处理方式浪费存储资源,数据处理效率较低的问题。本申请实施例提供一种跨数据源的数据处理方法,包括:在第一数据源中查询目标数据集合;针对所述目标数据集合中的每一条第一数据记录,根据该条第一数据记录中的匹配参数信息,查询对应该条第一数据记录的第二数据记录,该条第二数据记录中包含所述匹配参数信息;将所述目标数据集合中的每一条第一数据记录和对应该条第一数据记录的第二数据记录进行合并,得到合并后的数据集合;其中,合并后的数据集合中包括每一条第一数据记录和与该条第一数据记录对应的第二数据记录之间的相同且不重复的参数信息,以及每一条第一数据记录和该条第一数据记录对应的第二数据记录之间不相同的参数信息。可选地,针对所述目标数据集合中的每一条第一数据记录,根据该条第一数据记录中的匹配参数信息,查询对应该条第一数据记录的第二数据记录,包括:根据所述目标数据集合中的每一条第一数据记录中的匹配参数信息,生成针对第二数据源的查询语言;基于生成的所述针对第二数据源的查询语言,查询对应所述目标数据集合中的每一条第一数据记录的第二数据记录。可选地,根据所述目标数据集合中的每一条第一数据记录中的匹配参数信息,生成针对第二数据源的查询语言,包括:将所述目标数据集合中各条第一数据记录中的匹配参数信息整体转义为针对第二数据源的结构化查询语言SQL。可选地,基于生成的所述针对第二数据源的查询语言,查询对应所述目标数据集合中的每一条第一数据记录的第二数据记录,包括:将生成的针对所述第二数据源的SQL作为在所述第二数据源中进行查询的限制条件,查询对应所述每一条第一数据记录的第二数据记录。可选地,将所述目标数据集合中的每一条第一数据记录和对应该条第一数据记录的第二数据记录进行合并,包括:针对每一条第一数据记录,在对应该条第一数据记录的第二数据记录中,提取除该条第一数据记录中的匹配参数信息之外的参数信息;将提取的参数信息息添加在该条第一数据记录中。本申请实施例提供一种跨数据源的数据处理装置,包括:第一查询模块,用于在第一数据源中查询目标数据集合;第二查询模块,用于针对所述目标数据集合中的每一条第一数据记录,根据该条第一数据记录中的匹配参数信息,查询对应该条第一数据记录的第二数据记录,该条第二数据记录中包含所述匹配参数信息;合并模块,用于将所述目标数据集合中的每一条第一数据记录和对应该条第一数据记录的第二数据记录进行合并,得到合并后的数据集合;其中,合并后的数据集合中包括每一条第一数据记录和与该条第一数据记录对应的第二数据记录之间的相同且不重复的参数信息,以及每一条第一数据记录和该条第一数据记录对应的第二数据记录之间不相同的参数信息。本申请实施例在需要将不同数据源中的数据进行合并处理时,针对第一数据源中待合并的目标数据集合中的每一条第一数据记录,查询第二数据源中对应该条第一数据记录的第二数据记录,这样,在将每一条第一数据记录和对应该条第一数据记录的第二数据记录进行合并后,可以得到每一条第一数据记录和与该条第一数据记录对应的第二数据记录之间的相同且不重复的参数信息,以及每一条第一数据记录和该条第一数据记录对应的第二数据记录之间不相同的参数信息,如此便实现了不同数据源数据之间的不冗余合并。并且,由于将不同数据源的数据合并在了一起,也即合并在同一张表中,从而在后续操作中可以针对这一张表进行操作,避免了执行跨数据表的操作,提高了数据处理效率。附图说明图1为本申请实施例提供的跨数据源的数据处理方法流程图;图2为本申请实施例提供的跨数据源的数据处理装置结构示意图。具体实施方式本申请实施例提供的跨数据源的数据处理方案可以应用在数据处理平台中,实现对跨数据源的数据的统一查询及处理。下面结合说明书附图对本申请实施例作进一步详细描述。如图1所示,为本申请实施例提供的跨数据源的数据处理方法流程图,包括以下步骤:S101:在第一数据源中查询目标数据集合。在具体实施中,数据处理平台在确定需要对第一数据源和第二数据源中的数据记录进行合并查询或处理时,随机选择其中一个数据源作为前置数据源来查询目标数据集合,这里选择第一数据源作为前置数据源来查询目标数据集合。这里的第一数据源和第二数据源可以指不同的数据库,比如分别为mysql数据库和garuda数据库,mysql数据库为首先查询的前置数据库,对garuda数据库的查询依赖于对mysql数据库的查询结果。在具体实施中,可以基于待查询的目标数据集合的标识信息,从在第一数据源中查询目标数据集合,这里的目标数据集合具体可以是一张数据表,数据表的标识信息可以指该数据表的名称等任何可以唯一标识该数据表的信息。S102:针对所述目标数据集合中的每一条第一数据记录,根据该条第一数据记录中的匹配参数信息,查询对应该条第一数据记录的第二数据记录,该条第二数据记录中包含所述匹配参数信息。在具体实施中,针对所述目标数据集合中的每一条第一数据记录,根据该条第一数据记录中的匹配参数信息,在第二数据源中查询具有该匹配参数信息的第二数据记录。在实际执行时,可以根据所述目标数据集合中的每一条第一数据记录中的匹配参数信息,生成针对第二数据源的查询语言;基于生成的所述针对第二数据源的查询语言,查询对应所述目标数据集合中的每一条第一数据记录的第二数据记录。具体地,将所述目标数据集合中各条第一数据记录中的匹配参数信息整体转义为针对第二数据源的结构化查询语言(StructuredQueryLanguage,SQL)。将生成的针对所述第二数据源的SQL作为在所述第二数据源中进行查询的限制条件,查询对应所述每一条第一数据记录的第二数据记录。比如,查询到的目标数据集合为下述表一:表一针对表一中的两条第一数据记录(bus_line:bu1、data_version:2015-10-01、store_code:store1、predict_sell_num:100)和(bus_line:bu1、data_version:2015-10-01、store_code:store2、predict_sell_num:200),将这两条第一数据记录中的匹配参数信息(bus_line:bu1、data_version:20本文档来自技高网...
一种跨数据源的数据处理方法及装置

【技术保护点】
一种跨数据源的数据处理方法,其特征在于,该方法包括:在第一数据源中查询目标数据集合;针对所述目标数据集合中的每一条第一数据记录,根据该条第一数据记录中的匹配参数信息,查询对应该条第一数据记录的第二数据记录,该条第二数据记录中包含所述匹配参数信息;将所述目标数据集合中的每一条第一数据记录和对应该条第一数据记录的第二数据记录进行合并,得到合并后的数据集合;其中,合并后的数据集合中包含每一条第一数据记录和与该条第一数据记录对应的第二数据记录之间的相同且不重复的参数信息,以及每一条第一数据记录和该条第一数据记录对应的第二数据记录之间不相同的参数信息。

【技术特征摘要】
1.一种跨数据源的数据处理方法,其特征在于,该方法包括:在第一数据源中查询目标数据集合;针对所述目标数据集合中的每一条第一数据记录,根据该条第一数据记录中的匹配参数信息,查询对应该条第一数据记录的第二数据记录,该条第二数据记录中包含所述匹配参数信息;将所述目标数据集合中的每一条第一数据记录和对应该条第一数据记录的第二数据记录进行合并,得到合并后的数据集合;其中,合并后的数据集合中包含每一条第一数据记录和与该条第一数据记录对应的第二数据记录之间的相同且不重复的参数信息,以及每一条第一数据记录和该条第一数据记录对应的第二数据记录之间不相同的参数信息。2.如权利要求1所述的方法,其特征在于,针对所述目标数据集合中的每一条第一数据记录,根据该条第一数据记录中的匹配参数信息,查询对应该条第一数据记录的第二数据记录,包括:根据所述目标数据集合中的每一条第一数据记录中的匹配参数信息,生成针对第二数据源的查询语言;基于生成的所述针对第二数据源的查询语言,查询对应所述目标数据集合中的每一条第一数据记录的第二数据记录。3.如权利要求2所述的方法,其特征在于,根据所述目标数据集合中的每一条第一数据记录中的匹配参数信息,生成针对第二数据源的查询语言,包括:将所述目标数据集合中各条第一数据记录中的匹配参数信息整体转义为针对第二数据源的结构化查询语言SQL。4.如权利要求3所述的方法,其特征在于,基于生成的所述针对第二数据源的查询语言,查询对应所述目标数据集合中的每一条第一数据记录的第二数据记录,包括:将生成的针对所述第二数据源的SQL作为在所述第二数据源中进行查询的限制条件,查询对应所述每一条第一数据记录的第二数据记录。5.如权利要求1~4任一所述的方法,其特征在于,将所述目标数据集合中的每一条第一数据记录和对应该条第一数据记录的第二数据记录进行合并,包括:针对每一条第一数据记录,在...

【专利技术属性】
技术研发人员:郝佳
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1