一种数据处理方法、装置、设备及介质制造方法及图纸

技术编号:39158474 阅读:9 留言:0更新日期:2023-10-23 15:01
本申请公开了一种数据处理方法、装置、设备及介质,数据处理方法包括:获取各第一数据单元和各第二数据单元,其中,各第一数据单元和各第二数据单元分别由第一数据集和第二数据集中的目标数据得到;对各第一数据单元和各第二数据单元执行条件过滤操作,根据第一关联条件对经条件过滤操作后剩余的各第一数据单元和各第二数据单元进行关联过滤操作;对经关联过滤操作后剩余的各第一数据单元执行重组操作,得到各第一数据单元集;根据第一数据单元集对经关联过滤操作后剩余的各第二数据单元执行重组操作,得到各第二数据单元集;其中,各第一数据单元集无交集;对具有映射关系的第一数据单元集和第二数据单元集执行数据处理操作,得到数据处理结果。得到数据处理结果。得到数据处理结果。

【技术实现步骤摘要】
一种数据处理方法、装置、设备及介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、设备及介质。

技术介绍

[0002]随着技术发展,不断有各种各样的数据产生和存储。出于各种需要,会对某些数据执行某种或某些种处理操作。由于单位时间内产生和存储的数据量可能是巨大的,要从已存储的数据中查询到待执行处理操作的数据,需要进行大量计算,耗费大量计算资源和时间。
[0003]特别的,待执行处理操作的数据可能来自于不同的数据库或数据表,这无疑增加了数据的处理难度。例如,待执行处理操作的数据可能来自不同的数据表,比如图1所示的关联表和被关联表。现有技术中,通常会采用采用多线程(或多进程)并行执行的技术。这种情况下,需要预先进行数据洗牌(shuffle),即将参与运算的关联表和被关联表中的全部数据按照关联键进行散列,形成相互独立的若干数据子集,再以数据子集为单位分派给不同的线程并行执行,这就会涉及大量的数据计算和移动开销,数据处理效率较低。
[0004]有鉴于此,需要更高效的数据处理方案。

技术实现思路

[0005]本申请提供一种数据处理方法、装置、设备及介质,用以解决如何更高效地进行数据关联和处理的技术问题。
[0006]为解决上述技术问题,本申请提供如下技术方案:本申请提供一种数据处理方法,所述方法包括:获取各第一数据单元和各第二数据单元,其中,各所述第一数据单元由第一数据集中的目标数据得到,各所述第二数据单元由第二数据集中的目标数据得到;对各第一数据单元和各第二数据单元执行条件过滤操作,根据第一关联条件对经条件过滤操作后剩余的各第一数据单元和各第二数据单元进行关联过滤操作;对经关联过滤操作后剩余的各第一数据单元执行重组操作,得到各第一数据单元集;根据第一数据单元集对经关联过滤操作后剩余的各第二数据单元执行重组操作,得到各第二数据单元集;其中,各第一数据单元集无交集;根据各第一数据单元集和各第二数据单元集的映射关系,对具有映射关系的第一数据单元集和第二数据单元集执行数据处理操作,得到数据处理结果。
[0007]进一步的,其中,对任一第一数据单元,该第一数据单元具有对应的统计信息,所述统计信息用于表征该第一数据单元所包含的数据的数据信息;和/或,对任一第二数据单元,该第二数据单元具有对应的统计信息,所述统计信息用于表征该第二数据单元所包含的数据的数据信息。
[0008]进一步的,其中,对各第一数据单元执行条件过滤操作包括:
对任一第一数据单元,若该第一数据单元对应的统计信息满足过滤条件,则该第一数据单元为经条件过滤操作后剩余的第一数据单元;和/或,对各第二数据单元执行条件过滤操作包括:对任一第二数据单元,若该第二数据单元对应的统计信息满足过滤条件,则该第二数据单元为经条件过滤操作后剩余的第二数据单元。
[0009]进一步的,其中,所述条件过滤操作包括等值过滤操作和/或范围过滤操作。
[0010]进一步的,其中,所述第一关联条件为等值关联条件;根据第一关联条件对经条件过滤操作后剩余的各第一数据单元和各第二数据单元进行关联过滤操作包括:根据第一关联条件,对经条件过滤操作后剩余的任一第一数据单元,若该第一数据单元与经条件过滤操作后剩余的某第二数据单元存在交集,则该第一数据单元为经关联过滤操作后剩余的第一数据单元;根据第一关联条件,对经条件过滤操作后剩余的任一第二数据单元,若该第二数据单元与经条件过滤操作后剩余的某第一数据单元存在交集,则该第二数据单元为经关联过滤操作后剩余的第二数据单元。
[0011]进一步的,其中,对经关联过滤操作后剩余的各第一数据单元执行重组操作,得到各第一数据单元集,包括:将经关联过滤操作后剩余的各第一数据单元中,存在交集的各第一数据单元作为一个第一数据单元集,与其他第一数据单元不存在交集的单个第一数据单元作为一个第一数据单元集。
[0012]进一步的,其中,根据第一数据单元集对经关联过滤操作后剩余的各第二数据单元执行重组操作,得到各第二数据单元集,包括:将经关联过滤操作后剩余的各第二数据单元中,与同一个第一数据单元集中的至少一个第一数据单元存在交集的第二数据单元作为一个第二数据单元集。
[0013]进一步的,其中,由第一数据集中的目标数据得到各第一数据单元包括:将第一数据集中的目标数据压缩成一个或多个第一数据单元;和/或,由第二数据集中的目标数据得到各第二数据单元包括:将第二数据集中的目标数据压缩成一个或多个第二数据单元。
[0014]进一步的,其中,由第一数据集中的目标数据得到各第一数据单元包括:将第一数据集中的目标数据压缩成一个或多个压缩单元,每个第一数据单元包含一个或多个压缩单元;和/或,由第二数据集中的目标数据得到各第二数据单元包括:将第二数据集中的目标数据压缩成一个或多个压缩单元,每个第二数据单元包含一个或多个压缩单元。
[0015]进一步的,其中,对任一压缩单元,所述压缩单元具有元数据,所述元数据包括压缩描述信息,所述压缩描述信息用于表征得到该压缩单元所使用的压缩方式。
[0016]进一步的,其中,相互之间存在交集的第一数据单元集与第二数据单元集具有映射关系。
[0017]进一步的,其中,对具有映射关系的第一数据单元集和第二数据单元集执行数据处理操作包括:对由具有映射关系的第一数据单元集和第二数据单元集得到的解压缩数据执行数据处理操作。
[0018]进一步的,其中,对任一第一数据单元集,由该第一数据单元集得到的解压缩数据,指对该第一数据单元集中各第一数据单元解压缩得到的数据;和/或,对任一第二数据单元集,由该第二数据单元集得到的解压缩数据,指对该第二数据单元集中各第二数据单元解压缩得到的数据。
[0019]进一步的,其中,对具有映射关系的第一数据单元集和第二数据单元集执行数据处理操作包括:由线程对具有映射关系的第一数据单元集和第二数据单元集执行数据处理操作。
[0020]进一步的,其中,所述方法还包括:对任一组具有映射关系的第一数据单元集和第二数据单元集,根据该组第一数据单元集和第二数据单元集中,第一数据单元集包含的数据量或第二数据单元集包含的数据量或第一数据单元集中的第一数据单元数量或第二数据单元集中的第二数据单元数量,确定对该组第一数据单元集和第二数据单元集执行数据处理操作的线程数量。
[0021]进一步的,其中,所述方法还包括:对任一组具有映射关系的第一数据单元集和第二数据单元集,若需要由多个线程对该组第一数据单元集和第二数据单元集执行数据处理操作,则对该组第一数据单元集和第二数据单元集执行数据处理操作包括:将该组第一数据单元集和第二数据单元集中,第一数据单元集包含的各第一数据单元对应的全部目标数据进行散列,形成一个或多个第一数据子集,各个第一数据子集无交集;根据第一数据子集,将该组第一数据单元集和第二数据单元集中,第二数据单元集包含的各第二数据单元对应的全部目标数据划分成一个或多个第二数据子集;由单个线程对具有映射关系的第一数据子集和第二数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取各第一数据单元和各第二数据单元,其中,各所述第一数据单元由第一数据集中的目标数据得到,各所述第二数据单元由第二数据集中的目标数据得到;对各第一数据单元和各第二数据单元执行条件过滤操作,根据第一关联条件对经条件过滤操作后剩余的各第一数据单元和各第二数据单元进行关联过滤操作;对经关联过滤操作后剩余的各第一数据单元执行重组操作,得到各第一数据单元集;根据第一数据单元集对经关联过滤操作后剩余的各第二数据单元执行重组操作,得到各第二数据单元集;其中,各第一数据单元集无交集;根据各第一数据单元集和各第二数据单元集的映射关系,对具有映射关系的第一数据单元集和第二数据单元集执行数据处理操作,得到数据处理结果。2.如权利要求1所述的方法,其特征在于,对任一第一数据单元,该第一数据单元具有对应的统计信息,所述统计信息用于表征该第一数据单元所包含的数据信息;和/或,对任一第二数据单元,该第二数据单元具有对应的统计信息,所述统计信息用于表征该第二数据单元所包含的数据信息。3.如权利要求2所述的方法,其特征在于,对各第一数据单元执行条件过滤操作包括:对任一第一数据单元,若该第一数据单元对应的统计信息满足过滤条件,则该第一数据单元为经条件过滤操作后剩余的第一数据单元;和/或,对各第二数据单元执行条件过滤操作包括:对任一第二数据单元,若该第二数据单元对应的统计信息满足过滤条件,则该第二数据单元为经条件过滤操作后剩余的第二数据单元。4.如权利要求1所述的方法,其特征在于,所述条件过滤操作包括等值过滤操作和/或范围过滤操作。5.如权利要求1至4中任一项所述的方法,其特征在于,所述第一关联条件为等值关联条件;根据第一关联条件对经条件过滤操作后剩余的各第一数据单元和各第二数据单元进行关联过滤操作包括:根据第一关联条件,对经条件过滤操作后剩余的任一第一数据单元,若该第一数据单元与经条件过滤操作后剩余的某第二数据单元存在交集,则该第一数据单元为经关联过滤操作后剩余的第一数据单元;根据第一关联条件,对经条件过滤操作后剩余的任一第二数据单元,若该第二数据单元与经条件过滤操作后剩余的某第一数据单元存在交集,则该第二数据单元为经关联过滤操作后剩余的第二数据单元。6.如权利要求1所述的方法,其特征在于,对经关联过滤操作后剩余的各第一数据单元执行重组操作,得到各第一数据单元集,包括:
将经关联过滤操作后剩余的各第一数据单元中,存在交集的各第一数据单元作为一个第一数据单元集,与其他第一数据单元不存在交集的单个第一数据单元作为一个第一数据单元集。7.如权利要求1或6所述的方法,其特征在于,根据第一数据单元集对经关联过滤操作后剩余的各第二数据单元执行重组操作,得到各第二数据单元集,包括:将经关联过滤操作后剩余的各第二数据单元中,与同一个第一数据单元集中的至少一个第一数据单元存在交集的第二数据单元作为一个第二数据单元集。8.如权利要求1所述的方法,其特征在于,由第一数据集中的目标数据得到各第一数据单元包括:将第一数据集中的目标数据压缩成一个或多个第一数据单元;和/或,由第二数据集中的目标数据得到各第二数据单元包括:将第二数据集中的目标数据压缩成一个或多个第二数据单元。9.如权利要求1所述的方法,其特征在于,由第一数据集中的目标数据得到各第一数据单元包括:将第一数据集中的目标数据压缩成一个或多个压缩单元,每个第一数据单元包含一个或多个压缩单元;和/或,由第二数据集中的目标数据得到各第二数据单元包括:将第二数据集中的目标数据压缩成一个或多个压缩单元,每个第二数据单元包含一个或多个压缩单元。10.如权利要求9所述的方法,其特征在于,对任一压缩单元,所述压缩单元具有元数据,所述元数据包括压缩描述信息,所述压缩描述信息用于表征得到该压缩单元所使用的压缩方式。11.如权利要求1所述的方法,其特征在于,相互之间存在交集的第一数据单元集与第二数据单元集具有映射关系。12.如权利要求1或11所述的方法,其特征在于,对具有映射关系的第一数据单元集和第二数据单元集执行数据处理操作包括:对由具有映射关系的第一数据单元集和第二数据单元集得到的解压缩数据执行数据处理操作。13.如权利要求12所述的方法,其特征在于,对任一第一数据单元集,由该第一数据单元集得到的解压缩数据,指对该第一数据单元集中各第一数据单元解压缩得到的数据;和/或,对任一第二数据单元集,由该第二数据单元集得到的解压缩数据,指对该第二数据单元集中各第二数据单元解压缩得到的数据。14.如...

【专利技术属性】
技术研发人员:李晓鹏贾宗秀姬涛涛刘尧赵冬伟胡薇吴嵩张昕尧李永进
申请(专利权)人:天津神舟通用数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1