The embodiment of the invention discloses a method, device, device and storage medium for data aggregation. Wherein, the method includes: obtaining at least two data table information to be aggregated, and determining at least two public fields in at least two data tables; if any public field has the same value in the at least two data tables, the public field is taken as the main field, and other public fields are taken as the sub fields; according to the aggregation configuration information of the sub fields, from to Determine the target value of the data item in the sub field in less than two data tables; generate the aggregate data table according to the value of the main field and the target value of the data item in the sub field. The embodiment of the invention realizes the aggregation of multiple common fields in multiple data tables, improves the efficiency of data aggregation, and avoids information omission and information redundancy.
【技术实现步骤摘要】
一种数据聚合的方法、装置、设备及存储介质
本专利技术实施例涉及互联网技术,尤其涉及一种数据聚合的方法、装置、设备及存储介质。
技术介绍
随着互联网的不断发展,数据量不断增多,在进行数据分析及数据挖掘时,需要将两张及两张以上的相同结构、字段间具备关联性的数据表中的数据聚合至一张表中,进而减少冗余数据及重复数据存在,提升数据查询的效率。目前,在对相同结构的数据表进行聚合时,要选择两个表中可做唯一标识的字段,进行关联。然而,在做字段关联时,两个表不止一个字段是有关联的,还存在其他关联字段。如A表和B表中,都存在身份证号和地址两个字段,身份证号做关联后,在选择接入字段时,只会对身份证号字段进行数据融合,而两个表中的地址信息没有办法聚合,只能选择其中一个表的地址数据,存在信息遗漏或信息冗余的可能。
技术实现思路
本专利技术实施例提供一种数据聚合的方法、装置、设备及存储介质,以实现对多张结构相同的数据库表进行多个公共字段的数据聚合,提高数据聚合的效率。第一方面,本专利技术实施例提供了一种数据聚合的方法,包括:获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;若任一公共字段在所述至少两个数据表中的取值相同,则将该公共字段作为主字段,并将其他公共字段作为副字段;根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值;根据所述主字段的取值,以及副字段中数据项的目标取值,生成聚合数据表。可选的,所述根据所述副字段 ...
【技术保护点】
1.一种数据聚合的方法,其特征在于,包括:/n获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;/n若任一公共字段在所述至少两个数据表中的取值相同,则将该公共字段作为主字段,并将其他公共字段作为副字段;/n根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值;/n根据所述主字段的取值,以及副字段中数据项的目标取值,生成聚合数据表。/n
【技术特征摘要】 【专利技术属性】
1.一种数据聚合的方法,其特征在于,包括:
获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;
若任一公共字段在所述至少两个数据表中的取值相同,则将该公共字段作为主字段,并将其他公共字段作为副字段;
根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值;
根据所述主字段的取值,以及副字段中数据项的目标取值,生成聚合数据表。
2.根据权利要求1所述的方法,其特征在于,所述根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值,包括:
若任一副字段的聚合配置信息中包括该副字段的主数据表,则从该主数据表中获取该副字段中数据项的目标取值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述副字段的聚合配置信息,从所述至少两个数据表中确定副字段中数据项的目标取值,还包括:
若任一副字段的聚合配置信息中包括该副字段的聚合条件,则从所述至少两个数据表中获取该副字段中数据项的候选取值;
将符合所述聚合条件的该副字段中数据项的候选取值,作为副字段中数据项的目标取值。
4.根据权利要求3所述的方法,其特征在于,所述聚合条件为时间最新条件;
所述将符合所述聚合条件的该副字段中数据项的候选取值,作为副字段中数据项的目标取值,包括:
针对该副字段中每一数据项,从该副字段中数据项的候选取值中选择时间在后的值作为该副字段中该数据项的目标取值。
5.一种数据聚合的装置,其特征在于,包括:
公共字段确定模块,用于获取待聚合的至少两个数据表信息,并确定至少两个数据表中的至少两个公共字段;
技术研发人员:张建业,
申请(专利权)人:北京启迪区块链科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。