一种hive离线同步校验方法、装置及电子设备制造方法及图纸

技术编号:23315093 阅读:23 留言:0更新日期:2020-02-11 17:47
本发明专利技术公开了一种hive离线同步校验方法、装置及电子设备,所述方法包括:分别获取hive表的增量流水数据表和增量数据表;根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验。本发明专利技术的hive离线同步校验方法,根据增量流水数据表和增量数据表对hive同步业务库数据进行校验,从校验机制上保证hive数据仓库的数据质量,能有效防止hive离线同步过程中数据的丢失,达到金融业对数据一致性的要求。

A method, device and electronic equipment of hive off-line synchronous verification

【技术实现步骤摘要】
一种hive离线同步校验方法、装置及电子设备
本专利技术涉及计算机信息处理领域,具体而言,涉及一种hive离线同步校验方法、装置、电子设备及计算机可读介质。
技术介绍
随着计算机技术的不断发展和信息化程度的不断提高,互联网快速发展,网络信息呈指数级增长,海量数据存储及应用也随之蓬勃发展。在大数据处理领域中,hive作为建立在Hadoop上的开源数据仓库框架有着较为广泛的使用,其可以将结构化的数据文件映射为一张数据库表,并提供类SQL语言HQL的查询,可以方便的读取、写入和管理Hadoop中的海量数据集,越来越多的数据存储电子设备以hive作为数据管理仓库和数据处理分析工具。Hive采用的HQL与数据库sql最大的区别就是数据库sql支持数据更新,HQL却不支持,也就是HQL无法对数据进行update(更新)、delete(删除),只能通过insert(插入)变相实现update、delete。这个变相的实现过程容易导致数据丢失,也因此会导致现有的hive离线同步工具在同步过程中在数据丢失的问题。专利技术内容本专利本文档来自技高网...

【技术保护点】
1.一种hive离线同步校验方法,其特征在于,所述方法包括:/n分别获取hive表的增量流水数据表和增量数据表;/n根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验。/n

【技术特征摘要】
1.一种hive离线同步校验方法,其特征在于,所述方法包括:
分别获取hive表的增量流水数据表和增量数据表;
根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验。


2.根据权利要求1所述的方法,其特征在于,所述获取hive表的增量流水数据表包括:
通过canal同步业务库binlog到kafka;
通过流计算将binlog实时写到hive表中生成增量数据变更log;
根据所述增量数据变更log生成增量流水数据表。


3.根据权利要求1-2中任一项所述的方法,其特征在于,所述获取增量数据表包括:
通过DataX/Sqoop离线同步获取增量数据表。


4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述增量流水数据表和增量数据表对hive同步业务库数据进行校验包括:
对比所述增量流水数据表和增量数据表是否有差异;
若所述增量流水数据表和增量数据表有差异,确定所述增量数据表是否有数据缺失;
若所述增量数据表中有数据缺失,根据...

【专利技术属性】
技术研发人员:黄建庭宋荣鑫刘建敏黄龙
申请(专利权)人:北京淇瑀信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1