一种基于HBase压缩方法技术

技术编号：9926477 阅读：116 留言：0更新日期：2014-04-16 17:53

本发明专利技术提供一种基于HBase压缩方法，其具体实现过程为：部署分布式集群；获取HBase表文件路径；通过压缩接口实现对属性值的压缩，这里的属性值是指HBase中列存储数据的属性值；对每个列文件属性值进行压缩，得到压缩数据三元组，即rowkey位置信息，列属性值，重复次数。该一种基于HBase压缩方法和现有技术相比，可以减少数据的存储空间，大大减少数据处理时间，提高数据处理效率，能使集群保存更多的数据，延长集群的使用寿命；实用性强，易于推广。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供，其具体实现过程为：部署分布式集群；获取HBase表文件路径；通过压缩接口实现对属性值的压缩，这里的属性值是指HBase中列存储数据的属性值；对每个列文件属性值进行压缩，得到压缩数据三元组，即rowkey位置信息，列属性值，重复次数。该和现有技术相比，可以减少数据的存储空间，大大减少数据处理时间，提高数据处理效率，能使集群保存更多的数据，延长集群的使用寿命；实用性强，易于推广。【专利说明】—种基于HBase压缩方法
本专利技术涉及计算机应用
，具体的说是。
技术介绍
随着计算机技术及互联网技术的飞速发展，信息数据量呈现爆炸式地增长。因此，对大型数据集进行高效查询存储是当今的热点，随着大数据技术的不断成熟，分布式数据库应运而生，它能提供高并发访问及稳定可靠的性能。HBase是Hadoop上的一个NoSQL数据库的实现，它是分布式的、面向列存储的数据库。在文件归档中，压缩技术是非常重要的，因此，HBase中关键技术之一的研究压缩方法是研究的重要方向，因此，提出该专利技术提出。目前HBase支持的常用压缩算法有Gzip、Lzo、Snappy。不同的场合使用不同的压缩算法。Gzip是比较消耗CPU的，压缩率最高，压缩和解压速度较慢，Gzip不能被分块并行处理；Lzo的压缩率居中，比Gzip低一些，但压缩和解压速度要比Gzip快，其中解压速度更快，CPU消耗的比Gzip少。Snappy的压缩率最低,而压缩和解压速度要稍微比Lzo要快一些。Gzip算法的基本原理是对要压缩的文件首先使用1ζ77算法进行压缩，然后将得到的结果使...

【技术保护点】
一种基于HBase压缩方法，其特征在于其具体实现过程为：一、部署分布式集群；二、获取HBase表文件路径；三、通过压缩接口实现对属性值的压缩，这里的属性值是指HBase中列存储数据的属性值；四、对每个列文件属性值进行压缩，得到压缩数据三元组，即rowkey位置信息，列属性值，重复次数，其中每一列中的列属性值与rowkey位置信息作为压缩条件，然后根据特定列中属性值的重复次数记录压缩态数据。

【技术特征摘要】

【专利技术属性】
技术研发人员：宗栋瑞，郭美思，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人