hive表增量数据同步方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:27513210 阅读:35 留言:0更新日期:2021-03-02 18:44
本申请实施例属于大数据领域,涉及一种hive表增量数据同步方法,包括根据触发的数据同步指令,从目标数据表读取待同步增量数据;对于每条待同步增量数据,确定待同步增量数据对应的已存数据在hive表中的分区目录,并将所述分区目录标记为变动目录;对于每个变动目录,调用对应的spark进程提取变动目录中的已存数据;在提取到的已存数据中确定保留数据;将所述待同步增量数据和所述保留数据进行合并得到待存储文件;通过各spark进程并行将各变动目录中的已存数据替换为待存储文件。本申请还提供一种hive表增量数据同步装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,待存储文件可存储于区块链中。本申请提高了hive表增量数据的同步效率。了hive表增量数据的同步效率。了hive表增量数据的同步效率。

【技术实现步骤摘要】
hive表增量数据同步方法、装置、计算机设备及存储介质


[0001]本申请涉及大数据
,尤其涉及一种hive表增量数据同步方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的发展,每天的生产生活都会产生大量的数据,使得大数据技术得到了极大的应用和发展。数据仓库是大数据领域中的重要概念,它出于分析性报告和决策支持目的而创建,可以为企业各级别的决策制定过程,而HIVE又是当前一种主流的数据仓库组件。
[0003]当前的数据仓库组件HIVE,只能追加数据,不允许对已经存储的历史数据进行修改。上游数据库中的数据进行了更新修改会产生增量数据,若要对增量数据进行同步,需要将整个HIVE表中的所有已存数据删除,重新从上游同步所有数据,造成IO资源浪费、增量数据同步效率低;且HIVE在执行插入数据的操作时,只能将数据一条一条地插入,耗费时间较长,进一步使得增量数据同步效率低下。

技术实现思路

[0004]本申请实施例的目的在于提出一种hive表增量数据同步方法、装置、计算机设备及存储介质,以解决hive表增量数据同步效率较低的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种hive表增量数据同步方法,采用了如下所述的技术方案:
[0006]根据触发的数据同步指令,从目标数据表读取待同步增量数据;
[0007]对于每条待同步增量数据,确定待同步增量数据对应的已存数据在hive表中的分区目录,并将所述分区目录标记为变动目录;
[0008]对于每个变动目录,调用对应的spark进程提取变动目录中的已存数据;
[0009]在提取到的已存数据中确定保留数据;
[0010]将所述待同步增量数据和所述保留数据进行合并得到待存储文件;
[0011]通过各spark进程并行将各变动目录中的已存数据替换为待存储文件。
[0012]进一步的,在所述根据触发的数据同步指令,从目标数据表读取待同步增量数据的步骤之前,还包括:
[0013]向设置有数据库的存储服务器发送数据查询指令;
[0014]获取所述存储服务器根据所述数据查询指令返回的所述数据库的数据统计信息;
[0015]当所述数据统计信息未达到预设阈值时,将所述数据库中的数据表设置为目标数据表。
[0016]进一步的,所述获取所述存储服务器根据所述数据查询指令返回的所述数据库的数据统计信息的步骤之后,还包括:
[0017]当所述数据统计信息达到预设阈值时,对所述数据库进行监测;
[0018]当监测到所述目标数据库发生数据变动时,将变动的数据作为待同步增量数据存储到目标数据表中。
[0019]进一步的,所述对于每条待同步增量数据,确定待同步增量数据对应的已存数据在hive表中的分区目录,并将所述分区目录标记为变动目录的步骤包括:
[0020]对于每条待同步增量数据,获取待同步增量数据的创建时间;
[0021]在hive表中查询所述创建时间所对应的分区目录;
[0022]将查询到的分区目录标记为变动目录,其中,所述变动目录存储有所述待同步增量数据的已存数据。
[0023]进一步的,所述对于每个变动目录,调用对应的spark进程提取变动目录中的已存数据的步骤之前,还包括:
[0024]获取标记的变动目录的目录数量;
[0025]创建与所述目录数量匹配的spark进程,并将所述标记的变动目录与创建的spark进程相关联。
[0026]进一步的,所述将所述待同步增量数据和所述保留数据进行合并得到待存储文件的步骤包括:
[0027]查询所述变动目录所对应的数据格式;
[0028]根据所述数据格式对所述待同步增量数据进行格式转换;
[0029]将格式转换后的待同步增量数据与所述保留数据进行合并,得到待存储文件;
[0030]在HDFS的临时目录中创建待存储目录,并将所述待存储文件添加到所述待存储目录中。
[0031]进一步的,所述通过各spark进程并行将各变动目录中的已存数据替换为待存储文件的步骤包括:
[0032]从所述hive表中删除各变动目录,并通过各spark进程将生成的待存储目录并行移动到所述hive表。
[0033]为了解决上述技术问题,本申请实施例还提供一种hive表增量数据同步装置,采用了如下所述的技术方案:
[0034]数据读取模块,用于根据触发的数据同步指令,从目标数据表读取待同步增量数据;
[0035]目录确定模块,用于对于每条待同步增量数据,确定待同步增量数据对应的已存数据在hive表中的分区目录,并将所述分区目录标记为变动目录;
[0036]数据提取模块,用于对于每个变动目录,调用对应的spark进程提取变动目录中的已存数据;
[0037]数据确定模块,用于在提取到的已存数据中确定保留数据;
[0038]数据合并模块,用于将所述待同步增量数据和所述保留数据进行合并得到待存储文件;
[0039]数据替换模块,用于通过各spark进程并行将各变动目录中的已存数据替换为待存储文件。
[0040]为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0041]根据触发的数据同步指令,从目标数据表读取待同步增量数据;
[0042]对于每条待同步增量数据,确定待同步增量数据对应的已存数据在hive表中的分区目录,并将所述分区目录标记为变动目录;
[0043]对于每个变动目录,调用对应的spark进程提取变动目录中的已存数据;
[0044]在提取到的已存数据中确定保留数据;
[0045]将所述待同步增量数据和所述保留数据进行合并得到待存储文件;
[0046]通过各spark进程并行将各变动目录中的已存数据替换为待存储文件。
[0047]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
[0048]根据触发的数据同步指令,从目标数据表读取待同步增量数据;
[0049]对于每条待同步增量数据,确定待同步增量数据对应的已存数据在hive表中的分区目录,并将所述分区目录标记为变动目录;
[0050]对于每个变动目录,调用对应的spark进程提取变动目录中的已存数据;
[0051]在提取到的已存数据中确定保留数据;
[0052]将所述待同步增量数据和所述保留数据进行合并得到待存储文件;
[0053]通过各spark进程并行将各变动目录中的已存数据替换为待存储文件。
[0054]与现有技术相比,本申请实施例主要有以下有益效果:读取待同步增量数据后,确定待同步增量数据对应的hive表已存数据所在的分区目录,并将其标记为变动目录;仅对变动目录中的数据进行增量同步更新,而不是将整个hive表中的数据都进行同步更新,减少了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种hive表增量数据同步方法,其特征在于,包括下述步骤:根据触发的数据同步指令,从目标数据表读取待同步增量数据;对于每条待同步增量数据,确定待同步增量数据对应的已存数据在hive表中的分区目录,并将所述分区目录标记为变动目录;对于每个变动目录,调用对应的spark进程提取变动目录中的已存数据;在提取到的已存数据中确定保留数据;将所述待同步增量数据和所述保留数据进行合并得到待存储文件;通过各spark进程并行将各变动目录中的已存数据替换为待存储文件。2.根据权利要求1所述的hive表增量数据同步方法,其特征在于,在所述根据触发的数据同步指令,从目标数据表读取待同步增量数据的步骤之前,还包括:向设置有数据库的存储服务器发送数据查询指令;获取所述存储服务器根据所述数据查询指令返回的所述数据库的数据统计信息;当所述数据统计信息未达到预设阈值时,将所述数据库中的数据表设置为目标数据表。3.根据权利要求2所述的hive表增量数据同步方法,其特征在于,所述获取所述存储服务器根据所述数据查询指令返回的所述数据库的数据统计信息的步骤之后,还包括:当所述数据统计信息达到预设阈值时,对所述数据库进行监测;当监测到所述目标数据库发生数据变动时,将变动的数据作为待同步增量数据存储到目标数据表中。4.根据权利要求1所述的hive表增量数据同步方法,其特征在于,所述对于每条待同步增量数据,确定待同步增量数据对应的已存数据在hive表中的分区目录,并将所述分区目录标记为变动目录的步骤包括:对于每条待同步增量数据,获取待同步增量数据的创建时间;在hive表中查询所述创建时间所对应的分区目录;将查询到的分区目录标记为变动目录,其中,所述变动目录存储有所述待同步增量数据的已存数据。5.根据权利要求1所述的hive表增量数据同步方法,其特征在于,所述对于每个变动目录,调用对应的spark进程提取变动目录中的已存数据的步骤之前,还包括:获取标记的变动目录的目录数量...

【专利技术属性】
技术研发人员:赵鹏徐淑华
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1