基于HBASE的数据融合方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:26762388 阅读:16 留言:0更新日期:2020-12-18 23:10
本申请涉及一种基于HBASE的数据融合方法、装置、设备及计算机可读介质。该方法包括:获取待融合数据,待融合数据为多源异构数据;确定与待融合数据的数据类型匹配的数据接入模块;利用数据接入模块生成与待融合数据匹配的数据标识;将数据标识和待融合数据组成键值对,并将键值对存储于目标数据库中,目标数据库为分布式开源数据库。本申请集成和简化了多源异构数据的融合过程,能够降低数据融合的复杂度,提高数据融合的效率,同时,结合分布式搜索服务集群(Solr集群),还实现了多条件实时查询。

【技术实现步骤摘要】
基于HBASE的数据融合方法、装置、设备及计算机可读介质
本申请涉及大数据
,尤其涉及一种基于HBASE的数据融合方法、装置、设备及计算机可读介质。
技术介绍
随着大数据时代的来临,各种各样的数据正源源不断的产生,同时数据与数据之间的内在联系随着数据量级的不断增加将更加难以挖掘与分析,形成“数据孤岛”。目前,相关技术中的数据融合方案可通过SQL查询结构化数据实现,或者通过编写定制化的程序实现,例如通过SQL关联多张独立的表,从而达到数据融合的目的,或者编写相应的Spark/MapReduce程序融合多种数据,实现多种数据的融合与打通,但无论是SQL查询分析或定制化程序分析都需要有一定技术背景的专业人员才能进行,技术要求和复杂度高,这无形中提高了入门门槛,同时处理方式不够灵活多样且效率低下,而大数据背景下的数据往往具有实时性和综合性的要求,因此传统的数据融合方式并不能满足实际需求。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请提供了一种基于HBASE的数据融合方法、装置、设备及计算机可读介质,以解决现有数据融合方案复杂度高,效率低的技术问题。根据本申请实施例的一个方面,本申请提供了一种基于HBASE的数据融合方法,包括:获取待融合数据,待融合数据为多源异构数据;确定与待融合数据的数据类型匹配的数据接入模块;利用数据接入模块生成与待融合数据匹配的数据标识;将数据标识和待融合数据组成键值对,并将键值对存储于目标数据库中,目标数据库为分布式开源数据库。可选地,确定与待融合数据的数据类型匹配的数据接入模块包括:在数据类型为结构化数据的情况下,调用结构化数据处理工具,数据接入模块包括结构化数据处理工具;在数据类型为半结构化数据的情况下,调用数据解析接口,数据接入模块包括数据解析接口;在数据类型为非结构化数据的情况下,调用元数据处理工具,数据接入模块包括元数据处理工具。可选地,确定与待融合数据的数据类型匹配的数据接入模块之后,该方法还包括:调用数据仓库,数据仓库为目标对象创建的,用于将待融合数据转化为元数据后,存储于目标数据库中,元数据为存储有指示待融合数据的特征的数据;利用数据仓库提取待融合数据的数据特征;根据数据特征生成与待融合数据匹配的元数据。可选地,利用数据接入模块生成与待融合数据匹配的数据标识包括:利用数据接入模块对待融合数据进行加密计算,得到数据标识。可选地,将数据标识和待融合数据组成键值对,并将键值对存储于目标数据库之后,该方法还包括:为目标数据库中的数据标识创建索引,索引存储于分布式搜索服务集群中。可选地,为目标数据库中的数据标识创建索引之后,该方法还包括:在接收到多条件查询语句的情况下,获取与多条件查询语句匹配的索引集合,索引集合中包括对应于多条件的多个索引;根据索引集合确定标识集合,标识集合中包括与索引集合中的各个索引匹配的数据标识;将与标识集合中的各个数据标识对应的待融合数据作为查询结果,返回至查询对象。可选地,获取与多条件查询语句匹配的索引集合包括:对多条件查询语句进行预处理;将预处理后的多条件查询语句分割为输出块、数据表块及查询条件块;利用输出块、数据表块及查询条件块生成索引查询语句;根据索引查询语句得到索引集合。根据本申请实施例的另一方面,本申请提供了一种基于HBASE的数据融合装置,包括:数据获取模块,用于获取待融合数据,待融合数据为多源异构数据;类型匹配模块,用于确定与待融合数据的数据类型匹配的数据接入模块;标识生成模块,用于利用数据接入模块生成与待融合数据匹配的数据标识;数据融合存储模块,用于将数据标识和待融合数据组成键值对,并将键值对存储于目标数据库中,目标数据库为分布式开源数据库。根据本申请实施例的另一方面,本申请提供了一种计算机设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。根据本申请实施例的另一方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。本申请实施例提供的上述技术方案与相关技术相比具有如下优点:本申请技术方案为获取待融合数据,待融合数据为多源异构数据;确定与待融合数据的数据类型匹配的数据接入模块;利用数据接入模块生成与待融合数据匹配的数据标识;将数据标识和待融合数据组成键值对,并将键值对存储于目标数据库中,目标数据库为分布式开源数据库。本申请集成和简化了多源异构数据的融合过程,能够降低数据融合的复杂度,提高数据融合的效率,同时,结合分布式搜索服务集群(Solr集群),还实现了多条件实时查询。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为根据本申请实施例提供的一种可选的基于HBASE的数据融合方法硬件环境示意图;图2为根据本申请实施例提供的一种可选的基于HBASE的数据融合方法流程图;图3为根据本申请实施例提供的一种可选的基于HBASE的数据融合装置框图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。相关技术中的数据融合方案可通过SQL查询结构化数据实现,或者通过编写定制化的程序实现,例如通过SQL关联多张独立的表,从而达到数据融合的目的,或者编写相应的Spark/MapReduce程序融合多种数据,实现多种数据的融合与打通,但无论是SQL查询分析或定制化程序分析都需要有一定技术背景的专业人员才能进行,技术要求和复杂度高,这无形中提高了入门门槛,同时处理方式不够灵活多样且效率低下,而大数据背景下的数据往往具有实时性和综合性的要求,因此传统的数据融合方式并不能满足实际需求。为了解决
技术介绍
中提及的问题,根据本申请实施例的一方面,提供了一种基于HBASE的数据融合方法的实施例。可选地,在本申请实施例中,上述基于HBASE的数据融合方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器1本文档来自技高网
...

【技术保护点】
1.一种基于HBASE的数据融合方法,其特征在于,包括:/n获取待融合数据,其中,所述待融合数据为多源异构数据;/n确定与所述待融合数据的数据类型匹配的数据接入模块;/n利用所述数据接入模块生成与所述待融合数据匹配的数据标识;/n将所述数据标识和所述待融合数据组成键值对,并将所述键值对存储于目标数据库中,其中,所述目标数据库为分布式开源数据库。/n

【技术特征摘要】
1.一种基于HBASE的数据融合方法,其特征在于,包括:
获取待融合数据,其中,所述待融合数据为多源异构数据;
确定与所述待融合数据的数据类型匹配的数据接入模块;
利用所述数据接入模块生成与所述待融合数据匹配的数据标识;
将所述数据标识和所述待融合数据组成键值对,并将所述键值对存储于目标数据库中,其中,所述目标数据库为分布式开源数据库。


2.根据权利要求1所述的方法,其特征在于,确定与所述待融合数据的数据类型匹配的数据接入模块包括:
在所述数据类型为结构化数据的情况下,调用结构化数据处理工具,其中,所述数据接入模块包括所述结构化数据处理工具;
在所述数据类型为半结构化数据的情况下,调用数据解析接口,其中,所述数据接入模块包括所述数据解析接口;
在所述数据类型为非结构化数据的情况下,调用元数据处理工具,其中,所述数据接入模块包括所述元数据处理工具。


3.根据权利要求2所述的方法,其特征在于,确定与所述待融合数据的数据类型匹配的数据接入模块之后,所述方法还包括:
调用数据仓库,其中,所述数据仓库为目标对象创建的,用于将所述待融合数据转化为元数据后,存储于所述目标数据库中,所述元数据为存储有指示所述待融合数据的特征的数据;
利用所述数据仓库提取所述待融合数据的数据特征;
根据所述数据特征生成与所述待融合数据匹配的所述元数据。


4.根据权利要求1所述的方法,其特征在于,利用所述数据接入模块生成与所述待融合数据匹配的数据标识包括:
利用所述数据接入模块对所述待融合数据进行加密计算,得到所述数据标识。


5.根据权利要求1至4任一所述的方法,其特征在于,将所述数据标识和所述待融合数据组成键值对,并将所述键值对存储于目标数据库之后,所述方法还包括:
为所述目标数据库中的所述数据标识创建索引,其中,所...

【专利技术属性】
技术研发人员:李亚飞刘建辉乔智孙军锋汪月
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1