数据处理方法、装置、电子设备及介质制造方法及图纸

技术编号：37433540 阅读：14 留言：0更新日期：2023-05-05 19:48

本公开提出一种数据处理方法、装置、电子设备及介质，方法包括：从源分布式数据库中获取多条待推送数据；从至少一个目标分布式数据库的多个分表的多个虚拟分区中，确定各待推送数据所属的候选虚拟分区；从各候选虚拟分区中确定处于未推送完成状态的第一目标虚拟分区；将属于各第一目标虚拟分区的待推送数据写入对应第一目标虚拟分区的分表中；在属于任一第一目标虚拟分区的待推送数据均写入该第一目标虚拟分区的分表的情况下，将该第一目标虚拟分区的状态标记为推送完成状态。由此，在将源分布式数据库中的数据推送至目标分布式数据库的过程中，仅推送属于未推送完成状态的虚拟分区的各待推送数据，可以降低数据的重复推送量，降低资源占用。降低资源占用。降低资源占用。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备及介质

[0001]本公开涉及大数据
，尤其涉及一种数据处理方法、装置、电子设备及介质。

技术介绍

[0002]随着互联网技术和信息技术的不断发展，企业产生的海量的业务数据可以存储于分布式数据库(比如HIVE)中，并且，还可以对业务数据进行加工处理后，再将处理后的业务数据存储于分布式数据库中。
[0003]在很多业务场景中，需要将某一个分布式数据库(后续称为源分布式数据库)中的业务数据同步至其他分布式数据库(后续称为目标分布式数据库，比如应用数据库集群)中，以供应用服务进行统计分析和/或查询。
[0004]在待同步业务数据的数据量较大的情况下，比如数据量达到几十甚至几百亿条，经常会因为任务资源、网络、数据库服务压力等情况，而导致数据推送任务或数据同步任务重启。然而，在任务重新执行时，业务数据需要进行全量重新推送，不仅造成业务数据的重复推送，还浪费了机器资源。

技术实现思路

[0005]本公开旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]本公开提出一种数据处理方法、装置、电子设备及介质，以实现在将源分布式数据库中的数据推送至目标分布式数据库的过程中，仅推送属于未推送完成状态的虚拟分区的各待推送数据，可以避免在设备宕机或进程重启后，推送属于推送完成状态的虚拟分区的各待推送数据，可以降低数据的重复推送量，降低资源占用。
[0007]本公开第一方面实施例提出了一种数据处理方法，包括：
[0008]从源分布式数据库中获取...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：从源分布式数据库中获取多条待推送数据，并从至少一个目标分布式数据库的多个分表的多个虚拟分区中，确定各所述待推送数据所属的候选虚拟分区；从各所述候选虚拟分区中确定处于未推送完成状态的第一目标虚拟分区；将属于各所述第一目标虚拟分区的待推送数据写入对应第一目标虚拟分区的分表中；在属于任一第一目标虚拟分区的待推送数据均写入所述任一第一目标虚拟分区的分表的情况下，将所述任一第一目标虚拟分区的状态标记为推送完成状态。2.根据权利要求1所述的方法，其特征在于，所述从至少一个目标分布式数据库的多个分表的多个虚拟分区中，确定各所述待推送数据所属的候选虚拟分区，包括：确定所述多条待推送数据所属的数据类型，并将所述多条待推送数据按照数据类型进行聚类，以得到至少一个聚簇；确定各所述聚簇包含的数据量，并将各所述聚簇按照对应数据量的取值由大至小排序，以得到排序序列；根据排序序列中各所述聚簇所处的位置、各所述目标分布式数据库的数据量、各所述分表的数据量和各所述虚拟分区的数据量，确定各所述聚簇中待推送数据所属的候选虚拟分区。3.根据权利要求2所述的方法，其特征在于，所述根据排序序列中各聚簇所处的位置、各所述目标分布式数据库的数据量、各所述分表的数据量和各所述虚拟分区的数据量，确定各所述聚簇中待推送数据所属的候选虚拟分区，包括：针对所述排序序列中的首个聚簇，根据各所述目标分布式数据库的数据量，从各所述目标分布式数据库中确定第一分布式数据库；根据所述第一分布式数据库中多个分表的数据量，从所述第一分布式数据库中的多个分表中确定第一分表；根据所述第一分表中多个虚拟分区的数据量，从所述第一分表中的多个虚拟分区中确定所述首个聚簇中各待推送数据所属的候选虚拟分区。4.根据权利要求3所述的方法，其特征在于，所述聚簇的个数为n个，n为大于1的正整数，所述根据排序序列中各聚簇所处的位置、各所述目标分布式数据库的数据量、各所述分表的数据量和各所述虚拟分区的数据量，确定各所述聚簇中待推送数据所属的候选虚拟分区，还包括：根据所述首个聚簇所包含的待推送数据的数据量，对所述第一分布式数据库的数据量、所述第一分表的数据量和所述首个聚簇所属的候选虚拟分区的数据量进行更新；针对所述排序序列中的第i个聚簇，根据更新后的各所述目标分布式数据库的数据量，从各所述目标分布式数据库中确定第二分布式数据库；其中，i为大于1且小于或等于n的正整数；根据所述第二分布式数据库中多个分表的数据量，从所述第二分布式数据库中的多个分表中确定第二分表；根据所述第二分表中多个虚拟分区的数据量，从所述第二分表中的多个虚拟分区中确定所述第i个聚簇中各待推送数据所属的候选虚拟分区。
5.根据权利要求2所述的方法，其特征在于，所述将属于各所述第一目标虚拟分区的待推送数据写...

【专利技术属性】
技术研发人员：刘亮，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人