【技术实现步骤摘要】
HBase数据库二级索引数据批量导入方法、装置、设备及介质
[0001]本专利技术涉及计算机领域,并且更具体地涉及一种HBase数据库二级索引数据批量导入的方法、装置、设备及可读介质。
技术介绍
[0002]HBase数据库(是一个分布式的、面向列的开源数据库,可存储海量数据,底层数据文件存储在HDFS中)作为大数据领域常用的分布式数据库,其支持千亿行、百万列的数据存储,但HBase数据库本身只提供基于行键和全表扫描的查询,涉及到了多条件的组合查询时,只能通过全表扫描,并且效率低下。多条件组合查询在大数据应用场景中是比较常见的,目前我们产品中的Indexer(一种二级索引工具)基于开源HBase
‑
indexer进行改造,基于HBase WAL日志实时同步HBase二级索引(用于弥补HBase数据库自身多条件组合查询不足的一种方案)数据并写入到ES(是一个基于Apache Lucene(TM)的开源搜索引擎,其数据检索和分析功能十分强悍)中,不会给HBase数据库带来入侵式的代码,而且不会影响写入性能。该需 ...
【技术保护点】
【技术特征摘要】
1.一种HBase数据库二级索引数据批量导入的方法,其特征在于,包括以下步骤:遍历HBase数据库中指定路径下所有的HFile文件,并获取每个HFile文件的绝对路径;根据获取到的HFile文件的绝对路径将每个HFile文件分别解析为预设格式的数据;将预设格式的数据转换为Result格式的数据;构建ES客户端,并将所述Result格式的数据通过所述ES客户端批量写入ES中。2.根据权利要求1所述的方法,其特征在于,将每个HFile文件分别解析为预设格式的数据包括:将HFile文件解析为row+family+qualify+value+type+timestamp格式的数据。3.根据权利要求1所述的方法,其特征在于,将预设格式的数据转换为Result格式的数据包括:将预设格式的数据转换为HfileRecord格式的数据,并在HfileRecord格式的数据中加入compariTo数据;根据row字段将HfileRecord格式的数据进行聚合以将单行单列的HfileRecord格式的数据组合为单行多列的Result格式的数据;根据索引信息将Result格式的数据进行筛选和过滤以剔除索引信息外的数据。4.根据权利要求1所述的方法,其特征在于,构建ES客户端,并将所述Result格式的数据通过所述ES客户端批量写入ES中:根据用户输入的ES连接参数构建一个ES客户端,所述ES连接参数包括超时时间、批写入大小和ES集群参数;将Result格式的数据通过所述ES客户端批量写入ES中以完成二级索引数据的批量导入。5.一种HBase数据库二级索引数据批量导入的装置,其特征在于,所述装置包括:获取模块,所述获取模块配置为遍历HBase数据库中指定路径下所有的HFile文件,并获取每个HFile文件的绝对路径;解析模块,所...
【专利技术属性】
技术研发人员:宋文豪,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。