一种基于行列混合存储的HBase优化方案制造技术

技术编号:34448176 阅读:23 留言:0更新日期:2022-08-06 16:45
本发明专利技术公开了一种基于行列混合存储的HBase优化方案,包括如下步骤:S1、构建新的数据表和索引表,所述数据表和索引的表结构如下:把相同字段的多个值连续存放,并在数据表、索引表中记录相关列的最大值、最小值,以及同字段起始偏移量;S2、基于新的表结构,构建新的行列混合存储查询方案;S3、对数据表进行Get转Scan;S4、对索引表进行Scan重写。该种基于行列混合存储的HBase优化方案,基于行列混合的存储模式进行数据建模,可以充分利用数据的相似性,明显降低数据存储,经实测验证比原有方案少占用50%的存储;基于新的数据聚集的存储模式,可以减少数据随机读取的次数,提升整体查询性能。询性能。询性能。

【技术实现步骤摘要】
一种基于行列混合存储的HBase优化方案


[0001]本专利技术涉及分布式数据库
,具体为一种基于行列混合存储的HBase优化方案。

技术介绍

[0002]随着大数据技术的发展,HBase逐渐成为业界广泛使用的NoSQL分布式存储系统,它具有高可靠、面向列、开源等特点,已被Facebook、阿里巴巴等公司成功用于生产系统。如何对HBase进行高效的二级索引存储、查询是业界研究的热点。目前被广泛使用的方案架构如图1所示,该方案主要包含三个模块:查询处理模块、查询执行引擎和大数据存储模块三部分。
[0003]1)查询处理模块
[0004]查询处理模块收到客户端下发的查询请求,从查询请求中获取查询条件,检查查询条件是否含有非法条件、错误条件等。如果合法,则将查询条件发给查询执行引擎;如果非法,则将错误信息返回给客户端。
[0005]2)查询执行引擎
[0006]查询执行引擎主要负责匹配和查询。匹配:条件匹配,即找到查询条件实际要查询的表;查询:将合法的、可查的查询条件转换为HBase可以处理的请求,进行查询。...

【技术保护点】

【技术特征摘要】
1.一种基于行列混合存储的HBase优化方案,其特征在于,包括如下步骤:S1、构建新的数据表和索引表,所述数据表和索引的表结构如下:把相同字段的多个值连续存放,并在数据表、索引表中记录相关列的最大值、最小值,以及同字段起始偏移量;S2、基于新的表结构,构建新的行列混合存储查询方案,所述新的行列混合存储查询方案的具体查询流程如下:S2.1、如果所有的索引表都不可查,则使用查询条件构造过滤器对数据表进行全表扫描;S2.2、如果查询条件匹配到某个索引表,并且该索引表包含需要返回的列,则该索引表可查,索引表查询都是Scan请求,为了防止Scan漏查数据,需要对Scan进行重写,并使用原始的过滤条件构造过滤器,对该索引表进行Scan;S2.3、如果查询条件可以匹配到某个索引表,但是该索引表未包含查询需要返回的所有字段,则利用索引表的F:drk列,构造对数据表的Scan请求,进行数据查询;S3、对数据表进行Get转Scan;S4、对索引表进行Scan重写。2.根据权利要求1所述的一种基于行列混合存储的HBase优化方案,其特征在于,所述步骤S1中Rowkey中的time选取所有time值中最新的。3.根据权利要求1所述的一种基于行列混合存储的HBase优化方案,其特...

【专利技术属性】
技术研发人员:李华蓉王勇强丁军峰赵智峰郑景
申请(专利权)人:南京烽火星空通信发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1