一种HBase数据增量同步的方法、装置及系统制造方法及图纸

技术编号:33716403 阅读:8 留言:0更新日期:2022-06-06 09:00
本申请公开提供了一种HBase数据增量同步的方法、装置及系统,其中,该方法包括:发送关键字获取请求;接收增量关键字,增量关键字是通讯对端根据HBase更新的业务数据确定的;向HBase发送增量获取请求,增量获取请求包括增量关键字;接收增量数据,增量数据是HBase根据增量关键字从更新的业务数据获取的;将增量数据导入Hive数据仓,根据HBase的协处理器特性,在数据插入HBase成功后,将增量关键字缓存在协处理器,有客户端调用增量关键字,并根据增量关键字从Hbase获取相应增量数据,解决了现有技术中HBase扫描全表造成的资源浪费和延迟,能够实现快速高效的获取增量数据。能够实现快速高效的获取增量数据。能够实现快速高效的获取增量数据。

【技术实现步骤摘要】
一种HBase数据增量同步的方法、装置及系统


[0001]本专利技术涉及HBase数据增量同步
,具体涉及一种HBase数据增量同步的方法、装置及系统。

技术介绍

[0002]随着大数据技术的发展,越来越多的企业开始构建大数据平台进行数据处理。HBase数据库(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC服务器上搭建起大规模结构化存储集群。部分用户行为数据经过MQ处理存储在HBase中,这部分数据体量较大且日益增长,需要增量同步数据到Hive数据仓库中进行离线分析,然而如何将保存在HBase数据库中的数据,快速且无遗漏的同步到数据仓库Hive数据仓库中,正成为很多企业面临的问题。
[0003]现有技术采用以下两种方案将HBase数据增量同步到Hive数据仓:方案一:使用HBase的Hive映射表将HBase数据增量同步到Hive数据仓,Hive数据仓和Hbase在大数据架构中处在不同位置,Hive数据仓是一个构建在Hadoop基础之上的数据仓库,主要解决分布式存储的大数据处理和计算问题,Hbase是基于HDFS的NoSQL数据库。Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,此种方案实现方式简单,但是不符合数仓的实现机制,首先,在数据量大的情况下,直接通过Hive映射表读取会引起业务方读取HBase阻塞,会影响业务的正常运行,违反了数仓尽可能低的影响业务运行原则。其次,从实现方式上来讲,通过hive映射表的方式增加了与业务方的耦合度,违反数仓建设解耦原则。
[0004]方案二:根据业务表中的字段抓取增量数据,由于HBase是基于RowKey的NoSQL数据库,所以需要通过Scan全表,再根据字段关键信息和时间过滤出当天的增量,当数据量达到千万甚至亿级时,这种执行效率就很低,运行时长很长。由于HBase表更新数据时,不能自动更新时间戳,会导致业务方没有及时更新时间戳,在增量抽取数据的时候,容易造成数据缺失。
[0005]现有技术中尚未提出一种有效将HBase中数据快速同步到Hive的解决方法。

技术实现思路

[0006]因此,本专利技术要解决的技术问题在于克服现有技术中通过客户端探针采集客户端的行为和事件,然后探针与应用层集成对接,导致开发工作量大,第三方集成复杂度高,监控平台与业务平台高耦合,业务逻辑处理复杂,不易于系统维护及后期扩展的缺陷,从而提供一种HBase数据增量同步的方法装置、及系统。
[0007]为解决上述技术问题,本专利技术公开实施例至少提供一种HBase数据增量同步的方法、装置及系统。
[0008]第一方面,本专利技术公开实施例提供了一种HBase数据增量同步的方法,包括:接收数据更新请求,所述数据更新请求是根据HBase更新的业务数据生成的,所述
数据更新请求包括HBase的增量关键字;根据所述数据更新请求更新缓存的增量关键字;接收增量关键字获取请求;发送缓存内更新的增量关键字,以便通讯对端根据所述增量关键字确定HBase的增量数据。
[0009]第二方面,本专利技术公开实施例还提供另一种HBase数据增量同步的方法,包括:发送关键字获取请求;接收增量关键字,所述增量关键字是通讯对端根据HBase更新的业务数据确定的;向HBase发送增量获取请求,所述增量获取请求包括所述增量关键字;接收增量数据,所述增量数据是所述HBase根据所述增量关键字从更新的业务数据获取的;将所述增量数据导入Hive数据仓。
[0010]可选地,在所述将所述增量数据导入Hive数据仓之前,所述方法还包括:将所述增量数据和Hive映射表中的元数据进行比对;所述将所述增量数据导入Hive数据仓为:若所述增量数据和Hive映射表中的元数据一致,则将所述增量数据导入Hive数据仓。
[0011]可选地,所述发送关键字获取请求为:按照预设时间发送关键字获取请求。
[0012]第三方面,本专利技术公开实施例还提供一种HBase数据增量同步的装置,包括:更新请求接收模块,用于接收数据更新请求,所述数据更新请求是根据HBase更新的业务数据生成的,所述数据更新请求包括HBase的增量关键字;更新执行模块,用于根据所述数据更新请求更新缓存的增量关键字;关键字请求接收模块,用于接收增量关键字获取请求;关键字发送模块,用于发送缓存内更新的增量关键字,以便通讯对端根据所述增量关键字确定HBase的增量数据。
[0013]第四方面,本专利技术公开实施例还提供一种HBase数据增量同步的装置,包括:关键字请求模块,用于发送关键字获取请求;关键字接收模块,用于接收增量关键字,所述增量关键字是通讯对端根据HBase更新的业务数据确定的;增量获取模块,用于向HBase发送增量获取请求,所述增量获取请求包括所述增量关键字;增量接收模块,用于接收增量数据,所述增量数据是所述HBase根据所述增量关键字从更新的业务数据获取的;数据同步模块,用于将所述增量数据导入Hive数据仓。
[0014]第五方面,本专利技术公开实施例还提供一种HBase数据增量同步的系统,包括:HBase,接收业务数据,根据更新的业务数据生成数据更新请求,所述数据更新请求包括HBase的增量关键字,向协处理器发送所述数据更新请求;所述协处理器,接收所述HBase发送的数据更新请求,根据所述数据更新请求更新缓存的增量关键字;在接收到客户端发送的增量关键字获取请求后,向所述客户端发送缓存内更新的增量关键字;
客户端,向所述协处理器发送所述增量关键字获取请求,接收所述协处理器发送的增量关键字,根据所述增量关键字确定HBase的增量数据。
[0015]可选地,所述客户端还用于:将所述增量数据和Hive映射表中的元数据进行比对;所述将所述增量数据导入Hive数据仓为:若所述增量数据和Hive映射表中的元数据一致,则将所述增量数据导入Hive数据仓。
[0016]第六方面,本专利技术公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0017]第七方面,本专利技术公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
[0018]本专利技术的实施例提供的技术方案可以具有以下有益效果:根据HBase的协处理器特性,在数据插入HBase成功后,将增量关键字缓存在协处理器,有客户端调用增量关键字,并根据增量关键字从Hbase获取相应增量数据,避免HBase扫描全表,能够实现快速高效的获取增量数据。
[0019]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。...

【技术保护点】

【技术特征摘要】
1.一种HBase数据增量同步的方法,其特征在于,包括:接收数据更新请求,所述数据更新请求是根据HBase更新的业务数据生成的,所述数据更新请求包括HBase的增量关键字;根据所述数据更新请求更新缓存的增量关键字;接收增量关键字获取请求;发送缓存内更新的增量关键字,以便通讯对端根据所述增量关键字确定HBase的增量数据。2.一种HBase数据增量同步的方法,其特征在于,包括:发送关键字获取请求;接收增量关键字,所述增量关键字是通讯对端根据HBase更新的业务数据确定的;向HBase发送增量获取请求,所述增量获取请求包括所述增量关键字;接收增量数据,所述增量数据是所述HBase根据所述增量关键字从更新的业务数据获取的;将所述增量数据导入Hive数据仓。3.根据权利要求2所述的HBase数据增量同步的方法,其特征在于,在所述将所述增量数据导入Hive数据仓之前,所述方法还包括:将所述增量数据和Hive映射表中的元数据进行比对;所述将所述增量数据导入Hive数据仓为:若所述增量数据和Hive映射表中的元数据一致,则将所述增量数据导入Hive数据仓。4.根据权利要求2所述的HBase数据增量同步的方法,其特征在于,所述发送关键字获取请求为:按照预设时间发送关键字获取请求。5.一种HBase数据增量同步的装置,其特征在于,包括:更新请求接收模块,用于接收数据更新请求,所述数据更新请求是根据HBase更新的业务数据生成的,所述数据更新请求包括HBase的增量关键字;更新执行模块,用于根据所述数据更新请求更新缓存的增量关键字;关键字请求接收模块,用于接收增量关键字获取请求;关键字发送模块,用于发送缓存内更新的增量关键字,以便通讯对端根据所述增量关键字确定HBase的增量数据。6.一种HBase数据增量同步的装置,其特征在于,包括:关键字请求模块,用于发送关键字获...

【专利技术属性】
技术研发人员:李波王子立
申请(专利权)人:深圳市华曦达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1