一种数据聚合的方法、装置、设备及存储介质制造方法及图纸

技术编号:22658738 阅读:26 留言:0更新日期:2019-11-28 03:21
本发明专利技术实施例公开了一种数据聚合的方法、装置、设备及存储介质。其中,该方法包括:获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;若任一公共字段在所述至少两个数据表中的取值相同,则将该公共字段作为主字段,并将其他公共字段作为副字段;根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值;根据所述主字段的取值,以及副字段中数据项的目标取值,生成聚合数据表。本发明专利技术实施例实现了将多个数据表中多个公共字段进行聚合,提高了数据聚合的效率,避免信息遗漏和信息冗余。

A data aggregation method, device, equipment and storage medium

The embodiment of the invention discloses a method, device, device and storage medium for data aggregation. Wherein, the method includes: obtaining at least two data table information to be aggregated, and determining at least two public fields in at least two data tables; if any public field has the same value in the at least two data tables, the public field is taken as the main field, and other public fields are taken as the sub fields; according to the aggregation configuration information of the sub fields, from to Determine the target value of the data item in the sub field in less than two data tables; generate the aggregate data table according to the value of the main field and the target value of the data item in the sub field. The embodiment of the invention realizes the aggregation of multiple common fields in multiple data tables, improves the efficiency of data aggregation, and avoids information omission and information redundancy.

【技术实现步骤摘要】
一种数据聚合的方法、装置、设备及存储介质
本专利技术实施例涉及互联网技术,尤其涉及一种数据聚合的方法、装置、设备及存储介质。
技术介绍
随着互联网的不断发展,数据量不断增多,在进行数据分析及数据挖掘时,需要将两张及两张以上的相同结构、字段间具备关联性的数据表中的数据聚合至一张表中,进而减少冗余数据及重复数据存在,提升数据查询的效率。目前,在对相同结构的数据表进行聚合时,要选择两个表中可做唯一标识的字段,进行关联。然而,在做字段关联时,两个表不止一个字段是有关联的,还存在其他关联字段。如A表和B表中,都存在身份证号和地址两个字段,身份证号做关联后,在选择接入字段时,只会对身份证号字段进行数据融合,而两个表中的地址信息没有办法聚合,只能选择其中一个表的地址数据,存在信息遗漏或信息冗余的可能。
技术实现思路
本专利技术实施例提供一种数据聚合的方法、装置、设备及存储介质,以实现对多张结构相同的数据库表进行多个公共字段的数据聚合,提高数据聚合的效率。第一方面,本专利技术实施例提供了一种数据聚合的方法,包括:获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;若任一公共字段在所述至少两个数据表中的取值相同,则将该公共字段作为主字段,并将其他公共字段作为副字段;根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值;根据所述主字段的取值,以及副字段中数据项的目标取值,生成聚合数据表。可选的,所述根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值,包括:若任一副字段的聚合配置信息中包括该副字段的主数据表,则从该主数据表中获取该副字段中数据项的目标取值。可选的,所述根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值,还包括:若任一副字段的聚合配置信息中包括该副字段的聚合条件,则从所述至少两个数据表中获取该副字段中数据项的候选取值;将符合所述聚合条件的该副字段中数据项的候选取值,作为副字段中数据项的目标取值。可选的,所述聚合条件为时间最新条件;所述将符合所述聚合条件的该副字段中数据项的候选取值,作为副字段中数据项的目标取值,包括:针对该副字段中每一数据项,从该副字段中数据项的候选取值中选择时间在后的值作为该副字段中该数据项的目标取值。第二方面,本专利技术实施例还提供了一种数据聚合的装置,包括:公共字段确定模块,用于获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;主副字段确定模块,用于若任一公共字段在所述至少两个数据表中的取值相同,则将该公共字段作为主字段,并将其他公共字段作为副字段;副字段取值确定模块,用于根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值;聚合数据表生成模块,用于根据所述主字段的取值,以及副字段中数据项的目标取值,生成聚合数据表。可选的,所述副字段取值确定模块,包括:主数据表取值获取单元,用于若任一副字段的聚合配置信息中包括该副字段的主数据表,则从该主数据表中获取该副字段中数据项的目标取值。可选的,所述副字段取值确定模块,还包括:数据项取值获取单元,用于若任一副字段的聚合配置信息中包括该副字段的聚合条件,则从所述至少两个数据表中获取该副字段中数据项的候选取值;将符合所述聚合条件的该副字段中数据项的候选取值,作为副字段中数据项的目标取值。可选的,所述聚合条件为时间最新条件;所述数据项取值获取单元,具体用于:针对该副字段中每一数据项,从该副字段中数据项的候选取值中选择时间在后的值作为该副字段中该数据项的目标取值。第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术任意实施例所述的数据聚合的方法。第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本专利技术任意实施例所述的数据聚合的方法。本专利技术实施例通过读取多个数据表的信息,聚合其中的公共字段,公共字段在不同数据表中取值不同的情况下,通过根据公共字段的聚合配置信息从数据表中获取需要的数据,避免了在数据表聚合过程中出现信息遗漏或信息冗余的问题。附图说明图1是本专利技术实施例一中的一种数据聚合方法的流程示意图;图2是本专利技术实施例二中的一种数据聚合方法的流程示意图;图3是本专利技术实施例三中的一种数据聚合装置的结构框图;图4是本专利技术实施例四中的一种计算机设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种数据聚合方法的流程示意图,本实施例可适用于聚合多个数据表信息的情况,该方法可以由一种数据聚合装置来执行。如图1所示,该方法具体包括如下步骤:步骤110、获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段。其中,用户通过输入账号和密码登录数据库,保持数据库的联通状态。服务器读取数据库中的数据表信息,从数据库中选择至少两个要聚合的数据表,也可以由用户直接读取数据库中的数据表信息,自主选择要聚合的数据表。选择数据表的依据可以是确定在数据表中存在至少两个公共字段,将存在公共字段的数据表进行聚合。公共字段是字段名称相同的字段,但字段中的数据可以相同,也可以不相同。例如,服务器获取了两个待聚合的数据表信息,两个数据表中都存在ID、姓名和成绩字段,则ID、姓名和成绩是待聚合的公共字段。如表1、表2所示,表1是第一个待聚合的数据表,表2是第二个待聚合的数据表。表1待聚合数据表1ID姓名成绩1张三802李四70表2待聚合数据表2ID姓名成绩1张三852王五75步骤120、若任一公共字段在至少两个数据表中的取值相同,则将该公共字段作为主字段,并将其他公共字段作为副字段。具体的,服务器读取公共字段中的数据信息,若在所获取的至少两个数据表中,公共字段中的取值完全一致,则将该公共字段作为主字段,直接将主字段中的数据信息拷贝到待生成的新聚合数据表中;若公共字段中的取值不完全一致,则将该公共字段作为副字段。如表1、表2所示,本文档来自技高网...

【技术保护点】
1.一种数据聚合的方法,其特征在于,包括:/n获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;/n若任一公共字段在所述至少两个数据表中的取值相同,则将该公共字段作为主字段,并将其他公共字段作为副字段;/n根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值;/n根据所述主字段的取值,以及副字段中数据项的目标取值,生成聚合数据表。/n

【技术特征摘要】
1.一种数据聚合的方法,其特征在于,包括:
获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;
若任一公共字段在所述至少两个数据表中的取值相同,则将该公共字段作为主字段,并将其他公共字段作为副字段;
根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值;
根据所述主字段的取值,以及副字段中数据项的目标取值,生成聚合数据表。


2.根据权利要求1所述的方法,其特征在于,所述根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值,包括:
若任一副字段的聚合配置信息中包括该副字段的主数据表,则从该主数据表中获取该副字段中数据项的目标取值。


3.根据权利要求1所述的方法,其特征在于,所述根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值,还包括:
若任一副字段的聚合配置信息中包括该副字段的聚合条件,则从所述至少两个数据表中获取该副字段中数据项的候选取值;
将符合所述聚合条件的该副字段中数据项的候选取值,作为副字段中数据项的目标取值。


4.根据权利要求3所述的方法,其特征在于,所述聚合条件为时间最新条件;
所述将符合所述聚合条件的该副字段中数据项的候选取值,作为副字段中数据项的目标取值,包括:
针对该副字段中每一数据项,从该副字段中数据项的候选取值中选择时间在后的值作为该副字段中该数据项的目标取值。


5.一种数据聚合的装置,其特征在于,包括:
公共字段确定模块,用于获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;

【专利技术属性】
技术研发人员:张建业
申请(专利权)人:北京启迪区块链科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1