一种基于hbase的数据散列处理方法及装置制造方法及图纸

技术编号：10846585 阅读：152 留言：0更新日期：2014-12-31 17:30

本发明专利技术公开一种基于hbase的数据散列处理方法，包括步骤：将hbase的接口文件加载到HDFS分布式文件存储或装置中；将所述接口文件转换成HFILE存储格式；获取规范化处理后的接口文件中的各数据的KEY字段；根据每个KEY字段分别生成随机种子，并以hbase的物理存储节点的总数为除数对每个随机种子进行取模，获得节点编号；分别将每个KEY字段所对应的数据加载至节点编号所对应的物理存储节点。本发明专利技术还公开一种基于hbase的数据散列处理装置。本发明专利技术能均衡各节点的负载，提高节点访问效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理领域，特别是涉及一种基于hbase的数据散列处理方法及装置。
技术介绍
移动互联网时代，移动通信行业的用户行为数据量激增，数据分析领域采用先进的大数据技术进行数据分析和数据访问工作，如hbase。但在实际应用过程中往往会存在并行访问某批数据访问的问题，这主要是因为hbase在数据写入时使用了单调递增或者时序的key将访问热度高的数据聚集在一个region(物理节点)上，造成访问集中在该region上，无法发挥集群性能的目标。对于HBASE的查询实现有两种方式：一种是按指定RowKey获取唯一一条记录的get方法，另一种是按照指定的条件获取一批记录的Scan方法。其中实现条件查询功能使用的是Scan方法，通过rowkey设计使批量获取记录集合在一起，可以提高条件查询的效率。但对于rowkey设计保证访问热度高的数据集合分散在集群节点中，避免集中访问的问题一直没有有效的方法。目前，在大数据领域中，已经有hbase相关查询优化的方法，现有的hbase的查询优化方法存在如下缺陷：访问热度较高的数据集合存储能提高访问效率，但方法中没有涉及到访问热度高数据如何提高访问效率的方法，若访问热度高的数据集合在一个节点中，造成该节点的负载很高，降低了访问效率。
技术实现思路
本专利技术所要解决的技术问题是：提供一种基于hbase的数据散列处理方法及装置，能有效解决现有技术中访问热度高的数据集合在一...

【技术保护点】
一种基于hbase的数据散列处理方法，其特征在于，包括步骤：将hbase的接口文件加载到HDFS分布式文件存储或装置中；将所述接口文件转换成HFILE存储格式；获取规范化处理后的接口文件中的各数据的KEY字段；根据每个KEY字段分别生成随机种子，并以hbase的物理存储节点的总数为除数对每个随机种子进行取模，获得节点编号；分别将每个KEY字段所对应的数据加载至节点编号所对应的物理存储节点。

【技术特征摘要】
1.一种基于hbase的数据散列处理方法，其特征在于，包括步骤：
将hbase的接口文件加载到HDFS分布式文件存储或装置中；
将所述接口文件转换成HFILE存储格式；获取规范化处理后的接口文件中
的各数据的KEY字段；
根据每个KEY字段分别生成随机种子，并以hbase的物理存储节点的总数
为除数对每个随机种子进行取模，获得节点编号；
分别将每个KEY字段所对应的数据加载至节点编号所对应的物理存储节
点。
2.根据权利要求1所述的基于hbase的数据散列处理方法，其特征在于，
所述生成随机种子的方法为平方取中法。
3.根据权利要求1所述的基于hbase的数据散列处理方法，其特征在于，
所述生成随机种子的方法为线性取余法。
4.根据权利要求2或3所述的基于hbase的数据散列处理方法，其特征在
于，所述接口文件为手机上网日志数据。
5.根据权利要求4所述的基于hbase的数据散列处理方法，其特征在于，
所述数据的KEY字段为手机号码字段。
6.一种基于hbase的数据散列处理装置，其特征在于，包括第一加载模块、
转换模块、取...

【专利技术属性】
技术研发人员：朱爱军，叶潇，陈威，林菓，
申请(专利权)人：福建新大陆软件工程有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人