一种数据仓库分区数据自动更新方法、装置、设备及介质制造方法及图纸

技术编号:41958000 阅读:18 留言:0更新日期:2024-07-10 16:43
本发明专利技术涉及一种数据仓库分区数据自动更新方法、装置、设备及介质,其方法包括:获取数据仓库中的目标分区表对应的至少一种类型的变动数据,并查询目标分区表中与各种类型的变动数据对应的历史数据;对于每种类型的变动数据和对应的历史数据,根据变动数据和对应的历史数据,确定该种变动数据的目标数据,目标数据满足预设的更新需求;对于每种类型的变动数据和对应的历史数据,根据目标数据,更新历史数据中与目标数据相同分区的数据;基于更新后的各种类型的数据,重新进行目标分区表的分区。本申请实现了Hive数据仓库中的目标分区表的数据更新与新增数据的合并,有效的解决了Hive数据仓库的历史数据更新和数据合并的问题。

【技术实现步骤摘要】

本专利技术涉及数据更新的,尤其是涉及一种数据仓库分区数据自动更新方法、装置、设备及介质


技术介绍

1、在大数据飞速发展的时代,搭建hadoop文件存储系统对海量数据进行存储,并利用hive对海量结构化数据进行分析挖掘的技术得到了广泛应用,但hive不擅长对数据进行更新操作。

2、实际业务系统中,会存在对数据进行修改(例如:订单数据)或者某种情况下导致数据延迟入库等情况,该情况会对后期的数据统计分析等操作产生重要的影响。hive是基于hdfs(hadoop distributed file system分布式文件系统)的一种数据仓库分析工具,而hdfs文件系统不支持对已有数据文件进行修改操作。由于目前hive本身对hdfs上的数据进行update以及delete等操作的支持较差,为了能实现对hdfs上数据的修改,以及后期统计分析结果的准确性,所以亟需一种对分区数据进行更新操作的方案。


技术实现思路

1、为了实现历史分区数据的更新,本申请提供一种数据仓库分区数据自动更新方法、装置、设备及介质。...

【技术保护点】

1.一种数据仓库分区数据自动更新方法,其特征在于,包括:

2.根据权利要求1所述的一种数据仓库分区数据自动更新方法,其特征在于,所述目标分区表中包括不同分区的数据,每个分区对应一个创建日期,所述获取数据仓库中的目标分区表对应的至少一种类型的变动数据,并查询所述目标分区表中与各种类型的所述变动数据对应的历史数据,包括:

3.根据权利要求2所述的一种数据仓库分区数据自动更新方法,其特征在于,对于每种类型的所述变动数据和对应的所述历史数据,所述根据所述变动数据和对应的所述历史数据,确定该种变动数据的目标数据,包括:

4.根据权利要求3所述的一种数据仓库分区数...

【技术特征摘要】

1.一种数据仓库分区数据自动更新方法,其特征在于,包括:

2.根据权利要求1所述的一种数据仓库分区数据自动更新方法,其特征在于,所述目标分区表中包括不同分区的数据,每个分区对应一个创建日期,所述获取数据仓库中的目标分区表对应的至少一种类型的变动数据,并查询所述目标分区表中与各种类型的所述变动数据对应的历史数据,包括:

3.根据权利要求2所述的一种数据仓库分区数据自动更新方法,其特征在于,对于每种类型的所述变动数据和对应的所述历史数据,所述根据所述变动数据和对应的所述历史数据,确定该种变动数据的目标数据,包括:

4.根据权利要求3所述的一种数据仓库...

【专利技术属性】
技术研发人员:张贺松徐凯臧培庆
申请(专利权)人:北京海科融通支付服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1