【技术实现步骤摘要】
一种基于HBase的海量文件离线分区管理方法
本专利技术属于计算机领域,具体是一种基于HBase的海量文件离线分区管理方法。
技术介绍
分布式存储作为当前大数据时代的数据存储应用方式被广泛认可,具体是通过硬件设备的横向扩展来完成对海量亿万级别数据的存储应用。HDFS作为分布式文件存储系统的成熟产品被广泛应用,而基于HDFS存储的HBase非结构化存储以其列式存储、亿万级别秒级响应等超强性能也已被广泛应用到海量数据业务。数据存储的可靠性已能得到保证,不过在面临海量超高流量的数据业务时,对于数据的管理却不能仅仅依靠HBase产品的固有特性。对于HBase来说,在存储性能上单表上亿级别并非难事,查询响应速度也是极快。但硬件设备容量毕竟有限,如果将所有数据都入库到HBase一张或几张表中,会造成单表数据量过大。当数据量增大到接近磁盘容量时,就需要清理部分数据,此时如果依赖HBase为表设定的TTL功能,过期的数据将会被标记删除,然后在下一次majorcompact时进行清理。从数据过期到标记删除到磁盘释放整个周期大概在7-15天时间,可见这种数据清理方式不能保证磁盘的及时 ...
【技术保护点】
1.一种基于HBase的海量文件离线分区管理方法,其特征在于,具体步骤如下:步骤一、用户创建自定义的存储桶,并加载关于桶的分区规则配置;步骤二、按照桶的分区规则,给用户即将写入的小文件设定存储分区表的名称;将文件写入的当前时间进行格式化后,拼写上桶的名称与下划线,组成该小文件预备写入的存储分区表的名称;步骤三、按照业务需求和HBase数据存储的规则,为用户即将写入的小文件设计指定在存储分区表中的Rowkey;步骤四、根据用户小文件的当前入库时间和指定的桶的名称,以RowKey作为每个小文件的唯一标示,自动将小文件写入当前时间段下的该桶的存储分区表中;在离线情况下系统自动创建 ...
【技术特征摘要】
1.一种基于HBase的海量文件离线分区管理方法,其特征在于,具体步骤如下:步骤一、用户创建自定义的存储桶,并加载关于桶的分区规则配置;步骤二、按照桶的分区规则,给用户即将写入的小文件设定存储分区表的名称;将文件写入的当前时间进行格式化后,拼写上桶的名称与下划线,组成该小文件预备写入的存储分区表的名称;步骤三、按照业务需求和HBase数据存储的规则,为用户即将写入的小文件设计指定在存储分区表中的Rowkey;步骤四、根据用户小文件的当前入库时间和指定的桶的名称,以RowKey作为每个小文件的唯一标示,自动将小文件写入当前时间段下的该桶的存储分区表中;在离线情况下系统自动创建下一时间段的存储分区表,保证下一时间段的文件写入正常;步骤五、用户指定该存储逻辑单元-桶的数据存储空间配额和时间配额,系统根据空间配额和时间配额的限定定期对存储分区表的数据进行离线管理;离线管理包括删除超出空间配额和时间配额的部分储存分区表;用户根据桶的分区规则在当前时间段即将结束下一时间段尚未到来之时,利用桶空间配额或者时间配额的限定对桶的存储分区分别进行离线管理;步骤六、同时系统离线预建下一时间段的存储分区表;离线任务根据桶的分区规则,将当前时间加上了分区时间段,将得到的时间进行格式化;然后将格式化后的时间拼上桶名加下划线作为下一时间段存储分区表的名称,在下一分区时间段到来之前根据Region预分区数创建好存储分区表。2.如权利要求1所述的一种基于HBase的海量文件离线分区管理方法,其特征在于,步骤一中所述的存储桶包括桶的元数据信息表,桶的元数据信息表包括:桶名,创建日期,空间配额,时间配额以及分区规则,同时也包含存储分区详情表及Region预分区数;桶的分区规则为day或month或year,分别代表分区规则为按天、按月和按年对桶进行分区;每个桶内都包括若干存储分区表。3.如权利要求1所述的一种基于HBase的海量文件离线分区管理方法,其特征在于,步骤三中所述的业务需求和HBase数据存储的规则包括:尽量避免某服务节...
【专利技术属性】
技术研发人员:李斌斌,王振宇,苏连超,
申请(专利权)人:北京赛思信安技术股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。