一种新零售全渠道数据同步方法、装置及电子设备制造方法及图纸

技术编号:38772440 阅读:10 留言:0更新日期:2023-09-10 10:45
本发明专利技术公开了一种新零售全渠道数据同步方法、装置及电子设备。本发明专利技术通过执行任务管理、任务实例、任务监控、离线处理、数据合并和数据源监控进行新零售全渠道数据同步,能够将位于各处的业务基础数据及时的、准确的、稳定的同步到数据中台,实现新零售全渠道数据快速上云。上云。上云。

【技术实现步骤摘要】
一种新零售全渠道数据同步方法、装置及电子设备


[0001]本专利技术涉及计算机
,尤其涉及一种新零售全渠道数据同步方法、装置及电子设备。

技术介绍

[0002]随着电商业务的快速发展,业务数据分散且繁杂,越来越多的企业在阿里云上建了数据中台。商业智能、搜索、推荐等部门可以在数据中台上对业务基础数据进行分析。数据中台的数据获取则是基于当前的企业运营实践,包括业务线上的商品、会员、销售、营销、活动、采购、物流、履约,还有企业内部的人事、考勤、财务等多个域。由于业务的细分,这些数据广泛分布在门店、总部、IDC机房、阿里云等数据库服务器上;而从体量上看,数据日增量约为500GB。
[0003]在此背景下,如何将位于各处的业务基础数据及时的、准确的、稳定的同步到数据中台,实现新零售全渠道数据快速上云,是目前亟待解决的技术问题。

技术实现思路

[0004]本专利技术的目的在于,提供一种新零售全渠道数据同步方法、装置及电子设备,能够将位于各处的业务基础数据及时的、准确的、稳定的同步到数据中台,实现新零售全渠道数据快速上云。
[0005]为了实现上述目的,本专利技术提供了一种新零售全渠道数据同步方法,包括如下步骤:执行任务管理,以在任务准备阶段,配置数据源、目标任务、周期,统一表结构定义,生产、打包任务资源包并上传到文件服务器;到达周期时间时,启动任务实例并下载任务实例对应的资源包文件;执行实例监控,以监控任务实例运行状态;执行离线处理,以在任务上线之后预创建临时任务表和目标任务表,进行全量数据初始化或数据补偿、数据修复;执行数据合并,以将临时任务表分区中抽取到的数据合并或覆盖到目标任务表分区,并进行去重操作以及统计同步的数据量;以及执行数据源监控,以监控数据源变更,从而完成新零售全渠道数据同步。
[0006]在一些实施例中,当监控到数据源发生变更时,进行自适应表结构变更以更改目标任务表结构。
[0007]为了实现上述目的,本专利技术还提供了一种新零售全渠道数据同步装置,包括:任务管理模块,用于执行任务管理,以在任务准备阶段,配置数据源、目标任务、周期,统一表结构定义,生产、打包任务资源包并上传到文件服务器;实例启动模块,用于在到达周期时间时,启动任务实例并下载任务实例对应的资源包文件;实例监控模块,用于执行实例监控,以监控任务实例运行状态;离线处理模块,用于执行离线处理,以在任务上线之后预创建临时任务表和目标任务表,进行全量数据初始化或数据补偿、数据修复;数据合并模块,用于执行数据合并,以将临时任务表分区中抽取到的数据合并或覆盖到目标任务表分区,并进行去重操作以及统计同步的数据量;以及数据源监控模块,用于执行数据源监控,以监控数
据源变更,从而完成新零售全渠道数据同步。
[0008]为了实现上述目的,本专利技术还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可执行程序,所述处理器执行所述计算机可执行程序时实现本专利技术所述的新零售全渠道数据同步方法的步骤。
[0009]本专利技术通过执行任务管理、任务实例、任务监控、离线处理、数据合并和数据源监控进行新零售全渠道数据同步,能够将位于各处的业务基础数据及时的、准确的、稳定的同步到数据中台,实现新零售全渠道数据快速上云。
附图说明
[0010]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍。显而易见地,下面描述中的附图仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1为本专利技术一实施例提供的新零售全渠道数据同步方法的流程图;
[0012]图2为本专利技术一实施例提供的新零售全渠道数据上云示意图;
[0013]图3为本专利技术一实施例提供的新零售全渠道数据同步装置的结构示意图;
[0014]图4为本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0016]请参阅图1,其为本专利技术一实施例提供的新零售全渠道数据同步方法的流程图。如图1所示,本实施例所述方法包括如下步骤:S11、执行任务管理,以在任务准备阶段,配置数据源、目标任务、周期,统一表结构定义,生产、打包任务资源包并上传到文件服务器;S12、到达周期时间时,启动任务实例并下载任务实例对应的资源包文件;S13、执行实例监控,以监控任务实例运行状态;S14、执行离线处理,以在任务上线之后预创建临时任务表和目标任务表,进行全量数据初始化或数据补偿、数据修复;S15、执行数据合并,以将临时任务表分区中抽取到的数据合并或覆盖到目标任务表分区,并进行去重操作以及统计同步的数据量;以及S16、执行数据源监控,以监控数据源变更,从而完成新零售全渠道数据同步。也即,本实施例提供的新零售全渠道数据同步方法分为任务管理、任务实例、任务监控、离线处理、数据合并和数据源监控部分,以下给出详细解释说明。
[0017]关于步骤S11、执行任务管理,以在任务准备阶段,配置数据源、目标任务、周期,统一表结构定义,生产、打包任务资源包并上传到文件服务器。
[0018]在一些实施例中,步骤S11中所述的统一表结构定义的步骤进一步包括:1)在任务打包时,对于采用分库分表方式的数据源表结构,统一自动补齐字段、统一字段顺序、统一数据类型、统一数据精度,得到统一的目标任务表的结构定义;以及2)附加抽取时间、来源库表、分区方式、注释信息,以用于溯源。数据源采用分库分表的方式时,存在源表字段不一
致的情况,可能是:字段有多余和不足、顺序混乱、数据类型不一致、数据精度不一致等,这种情况增加了数据抽取与合并的成本。本实施例在任务打包时,会统一自动补齐字段、统一字段顺序、统一数据类型、统一数据精度,以便相同的业务表数据可以合并到同一的目标表中;进一步通过附加抽取时间、来源库表、分区方式、注释等信息方便对以后可能出现的问题进行溯源。
[0019]在一些实施例中,步骤S11中所述的生产、打包任务资源包并上传到文件服务器的步骤进一步包括:一次性生成并打包一个或多个任务的资源包,并保存到文件服务器上;其中,每一任务具有独立的资源包文件。具体的,按照数据源和目标任务的配置,结合分区方式、主键与增量等信息,将流程化的任务打包成一个资源包文件,并将之保存到文件服务器(通常是HDFS)上。一次性可以生成并打包一个或多个任务的资源包,各个任务具有独立的资源包文件;这样某一任务的资源包遭到破坏不会影响其它的任务。任务启动时,需要先下载该任务的资源包文件。
[0020]关于步骤S12、到达周期时间时,启动任务实例并下载任务实例对应的资源包文件。具体的,所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新零售全渠道数据同步方法,其特征在于,包括如下步骤:执行任务管理,以在任务准备阶段,配置数据源、目标任务、周期,统一表结构定义,生产、打包任务资源包并上传到文件服务器;到达周期时间时,启动任务实例并下载任务实例对应的资源包文件;执行实例监控,以监控任务实例运行状态;执行离线处理,以在任务上线之后预创建临时任务表和目标任务表,进行全量数据初始化或数据补偿、数据修复;执行数据合并,以将临时任务表分区中抽取到的数据合并或覆盖到目标任务表分区,并进行去重操作以及统计同步的数据量;以及执行数据源监控,以监控数据源变更,从而完成新零售全渠道数据同步。2.根据权利要求1所述的方法,其特征在于,所述的统一表结构定义的步骤进一步包括:在任务打包时,对于采用分库分表方式的数据源表结构,统一自动补齐字段、统一字段顺序、统一数据类型、统一数据精度,得到统一的目标任务表的结构定义;以及附加抽取时间、来源库表、分区方式、注释信息,以用于溯源。3.根据权利要求1所述的方法,其特征在于,所述的生产、打包任务资源包并上传到文件服务器的步骤进一步包括:一次性生成并打包一个或多个任务的资源包,并保存到文件服务器上;其中,每一任务具有独立的资源包文件。4.根据权利要求1所述的方法,其特征在于,所述任务实例包括:资源包下载、分区准备与清理、抽取增量数据或全量数据到临时任务表分区。5.根据权利要求1所述的方法,其特征在于,所述的监控任务实例运行状态的步骤进一步包括:执行任务实例状态检查以及分区数据检查;以及随机采样数据并与源表进行...

【专利技术属性】
技术研发人员:陈静姚云平何恺杨量
申请(专利权)人:康成投资中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1