一种数据同步方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:33706799 阅读:27 留言:0更新日期:2022-06-06 08:30
本申请涉及一种数据同步方法、装置、计算机设备和存储介质,其中,方法包括:接收用户的数据同步的请求信息,请求信息包括用户进行在线分析的数据的字段信息,获取字段信息对应的事实表和维度表,并对事实表和维度表进行左拼接,获得拉宽表,并进行优化,按照已优化拉宽表中数据的记账时间进行分区,并将分区后的数据保存至分布式文件系统HDFS集群对应的分区,得到已分区数据,将已分区数据写入列式数据库管理单元Clickhouse的临时表中,完成数据同步,本同步方法能够按照用户指定的主时间对数据进行分布式写入,实现数据同步的并发,提高了数据同步的准确性。数据同步的准确性。数据同步的准确性。

【技术实现步骤摘要】
一种数据同步方法、装置、计算机设备和存储介质


[0001]本申请涉及大数据分析
,特别是涉及一种数据同步方法、装置、计算机设备和存储介质。

技术介绍

[0002]在线分析处理(On

Line Analysis Processing,OLAP)是一种共享多维信息的快速分析技术,其利用多维数据库技术使用户从不同角度观察数据。OLAP主要用于支持复杂的分析操作,侧重于对管理人员的决策支持,可以满足分析人员快速、灵活地进行大数据复量的复杂查询的要求,并且以一种直观、易懂的形式呈现查询结果,辅助决策。
[0003]目前,通常采用全覆盖方式将数据从数据仓库中同步到OLAP平台,数据仓库中的数据集根据分区时间同步到OLAP平台中,而数据仓库的分区时间为数据处理时间不是主时间维度,数据记录的记账时间才是主时间维度,在进行数据同步操作时,无法按照指定的主时间将数据同步到OLAP平台,降低了数据同步的准确性,且数据仓库中一个分区的数据记录只能写到OLAP平台中的一个分区,无法实现数据同步的并发。
专利技术内容
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据同步方法,其特征在于,所述方法包括:接收用户的数据同步的请求信息,所述请求信息包括用户进行在线分析的数据的字段信息;获取所述字段信息对应的事实表和维度表,并对所述事实表和所述维度表进行左拼接,得到所述字段信息对应的拉宽表;对所述拉宽表中的倾斜数据进行mapjoin操作,得到已优化拉宽表;按照所述已优化拉宽表中数据的记账时间进行分类,并将分类后的数据保存至分布式文件系统HDFS集群对应的分区,得到已分区数据;将所述已分区数据写入列式数据库管理单元Cli ckhouse的临时表中,进行数据同步。2.根据权利要求1所述的方法,其特征在于,所述将所述已分区数据写入列式数据库管理单元Cli ckhouse的临时表中,进行数据同步,包括:统计所述临时表和所述已优化拉宽表中的数据量,得到临时表数据量和拉宽表数据量;当所述临时表数据量与所述已优化拉宽表数据量一致时,将所述临时表中的已分区数据写入所述Clickhouse的主表,完成数据同步。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:当所述临时表数据量与所述拉宽表数据量不一致时,将所述已分区数据重新写入所述Clickhouse的临时表中,得到重写临时表;直至所述重写临时表中的数据量与所述已优化拉宽表的数据量一致时,将所述重写临时表中的已分区数据写入所述Cli ckhouse的主表,完成数据同步。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:当所述临时表数据量与所述已优化拉宽表数据量一致时,将所述临时表中的已分区数据写入所述Clickhouse的主表后,记录所述主表中数据的第一状态信息为提交状态。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:当所述临时表数据量与所述拉宽表数据量不一致时,获取所述临时表的元信息和执行信息;记录所述临时表中数...

【专利技术属性】
技术研发人员:夏锐翟小青汪金忠杨升孙迁
申请(专利权)人:苏宁易购集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1