【技术实现步骤摘要】
一种基于行列混合存储的HBase优化方案
[0001]本专利技术涉及分布式数据库
,具体为一种基于行列混合存储的HBase优化方案。
技术介绍
[0002]随着大数据技术的发展,HBase逐渐成为业界广泛使用的NoSQL分布式存储系统,它具有高可靠、面向列、开源等特点,已被Facebook、阿里巴巴等公司成功用于生产系统。如何对HBase进行高效的二级索引存储、查询是业界研究的热点。目前被广泛使用的方案架构如图1所示,该方案主要包含三个模块:查询处理模块、查询执行引擎和大数据存储模块三部分。
[0003]1)查询处理模块
[0004]查询处理模块收到客户端下发的查询请求,从查询请求中获取查询条件,检查查询条件是否含有非法条件、错误条件等。如果合法,则将查询条件发给查询执行引擎;如果非法,则将错误信息返回给客户端。
[0005]2)查询执行引擎
[0006]查询执行引擎主要负责匹配和查询。匹配:条件匹配,即找到查询条件实际要查询的表;查询:将合法的、可查的查询条件转换为HBase可以处理的
【技术保护点】
【技术特征摘要】
1.一种基于行列混合存储的HBase优化方案,其特征在于,包括如下步骤:S1、构建新的数据表和索引表,所述数据表和索引的表结构如下:把相同字段的多个值连续存放,并在数据表、索引表中记录相关列的最大值、最小值,以及同字段起始偏移量;S2、基于新的表结构,构建新的行列混合存储查询方案,所述新的行列混合存储查询方案的具体查询流程如下:S2.1、如果所有的索引表都不可查,则使用查询条件构造过滤器对数据表进行全表扫描;S2.2、如果查询条件匹配到某个索引表,并且该索引表包含需要返回的列,则该索引表可查,索引表查询都是Scan请求,为了防止Scan漏查数据,需要对Scan进行重写,并使用原始的过滤条件构造过滤器,对该索引表进行Scan;S2.3、如果查询条件可以匹配到某个索引表,但是该索引表未包含查询需要返回的所有字段,则利用索引表的F:drk列,构造对数据表的Scan请求,进行数据查询;S3、对数据表进行Get转Scan;S4、对索引表进行Scan重写。2.根据权利要求1所述的一种基于行列混合存储的HBase优化方案,其特征在于,所述步骤S1中Rowkey中的time选取所有time值中最新的。3.根据权利要求1所述的一种基于行列混合存储的HBase优化方案,其特...
【专利技术属性】
技术研发人员:李华蓉,王勇强,丁军峰,赵智峰,郑景,
申请(专利权)人:南京烽火星空通信发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。