数据同步方法和装置、计算设备和存储介质制造方法及图纸

技术编号：21628486 阅读：22 留言：0更新日期：2019-07-17 10:57

提供了一种数据同步方法，包括：启动多个并发执行的数据抽取任务，每个数据抽取任务用于从对应的多个前端服务器抽取数据；如果前端服务器上的文件已被切分，通过数据抽取任务从切分文件抽取数据，否则从当前未切分文件抽取数据；以及通过数据抽取任务将抽取的数据上传到数据仓库。本公开以较少的客户端资源实现了较低延迟的准实时数据同步，为后续数据处理加工提供了强有力的数据保障。

Data synchronization methods and devices, computing devices and storage media

全部详细技术资料下载

【技术实现步骤摘要】
数据同步方法和装置、计算设备和存储介质
本公开涉及网络技术，具体涉及数据同步方法和装置、计算设备和存储介质。
技术介绍
数据仓库(DataWarehouse，简写为DW或DWH)，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略数据集合。数据仓库最重要的是源头数据，即生产系统产生的数据。源头数据包含但不限于如下几种类型：流量数据、订单数据、用户数据等等。流量数据包含了用户访问网站期间所产生的一系列行为，通常需要快速稳定地将流量数据上传到数据仓库，以便后续的数据计算、分析以及挖掘提供强有力的保障。
技术实现思路
根据本公开的第一方面，提供了一种数据同步方法。所述数据同步方法包括启动多个并发执行的数据抽取任务，每个数据抽取任务用于从对应的多个前端服务器抽取数据。方法还包括：如果前端服务器上的文件已被切分，通过所述数据抽取任务从切分文件抽取数据，否则从当前未切分文件抽取数据。方法还包括通过所述数据抽取任务将抽取的数据上传到数据仓库。在一个实施例中，所述多个数据抽取任务可以在多个物理机器上运行，并且根据各个物理机器的性能分布在所述多个物理机器上。在一个实施例中，方法还可以包括读取配置信息，以获取数据在前端服务器的存放目录和上传数据的数据仓库的目录。在一个实施例中，所述多个前端服务器可以按照一定规则被平均分发到所述多个数据抽取任务。根据本公开的第二方面，提供了一种数据同步装置。所述数据同步装置包括启动单元、抽取单元和上传单元以及可选的配置读取单元。启动单元被配置为启动多个并发执行的数据抽取任务，其中，每个数据抽取任务用于从对应的多个前端服务器抽取数据。抽取单元...

【技术保护点】
1.一种数据同步方法，包括：启动多个并发执行的数据抽取任务，每个数据抽取任务用于从对应的多个前端服务器抽取数据；如果前端服务器上的文件已被切分，通过所述数据抽取任务从切分文件抽取数据，否则从当前未切分文件抽取数据；以及通过所述数据抽取任务将抽取的数据上传到数据仓库。

【技术特征摘要】
1.一种数据同步方法，包括：启动多个并发执行的数据抽取任务，每个数据抽取任务用于从对应的多个前端服务器抽取数据；如果前端服务器上的文件已被切分，通过所述数据抽取任务从切分文件抽取数据，否则从当前未切分文件抽取数据；以及通过所述数据抽取任务将抽取的数据上传到数据仓库。2.根据权利要求1所述的方法，其中，所述多个数据抽取任务在多个物理机器上运行，并且根据各个物理机器的性能分布在所述多个物理机器上。3.根据权利要求1所述的方法，还包括：读取配置信息，以获取数据在前端服务器的存放目录和上传数据的数据仓库的目录。4.根据权利要求1所述的方法，其中，所述多个前端服务器按照一定规则被平均分发到所述多个数据抽取任务。5.一种数据同步装置，包括：启动单元，被配置为启动多个并发执行的数据抽取任务，每个数据抽取任务用于从对应的多个前端服务器抽取数据抽取单元，被配置为如果前端服务器上的文件已被切分，通过所述数据抽取任务从...

【专利技术属性】
技术研发人员：袁建军，刘业辉，王彦明，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人