一种可进行大量数据处理的存储结构制造技术

技术编号:23932659 阅读:35 留言:0更新日期:2020-04-25 02:01
本发明专利技术属于大数据存储技术领域,尤其是涉及一种可进行大量数据处理的存储结构,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据。本发明专利技术提出一个新的思路来解决线上业务能够在服务非常大量用户的同时,具体的,利用分布式列式数据库和SSD硬盘对业务场景进行优化,在提升服务性能的同时,降低硬件使用成本。

A storage structure for mass data processing

【技术实现步骤摘要】
一种可进行大量数据处理的存储结构
本专利技术涉及大数据存储
,尤其涉及一种可进行大量数据处理的存储结构。
技术介绍
线上服务对于响应的延迟是十分敏感的,任何过长的查询或操作时间,都会导致服务使用的体验严重下降,并造成用户的流失。然而随着目前业务的扩展,数据量越来越大,传统的关系型数据库很难再满足日益增长的需求,所以需要使用一种更加现代和新型的存储模型。此时列式数据库在应对上述的情况时,能够在非常大量的数据时,依然通过主键能够提供性能远远大于传统关系型数据库的行式结构。本文提出一个新的思路来解决线上业务能够在服务非常大量用户的同时,提供低延迟的服务并且控制整体成本。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种可进行大量数据处理的存储结构。为了实现上述目的,本专利技术采用了如下技术方案:一种可进行大量数据处理的存储结构,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;大量数据在存储时的方法大致包括以下步骤:A1、选用优秀的数据库工具,并选用HBaseX-Pack分布式列式数据库;A2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;A3、采样数据,进行数据挖掘,海量数据关联存储;A4、由HBaseX-Pack向外提供高性能的随机读写操作;A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。在上述的一种可进行大量数据处理的存储结构中,所述步骤A1中选用的HBaseX-Pack是基于HBase及HBase生态构建的低成本一站式数据处理平台,且HBaseX-Pack支持HBaseAPI(包括RestServerThriftServer)、关系PhoenixSQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析SparkonHBase,所述HBaseX-Pack能够实现数据从处理、存储到分析全流程闭环。在上述的一种可进行大量数据处理的存储结构中,所述步骤A2中在建立索引是通过Key来实现的,所述HBase表设计中最重要的就是定义Row-Key的结构,且定义Row-Key的结构时需要考虑表的接入样本。在上述的一种可进行大量数据处理的存储结构中,所述HBase表是通过RowKey的字典序来对一行行的数据来进行排序的,且表中每一块区域的划分都是通过开始RowKey和结束RowKey来决定的,所述HBase表中的所有存储数据都是二进制的字节并没有数据类型。在上述的一种可进行大量数据处理的存储结构中,所述步骤A3中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能。在上述的一种可进行大量数据处理的存储结构中,所述步骤A4中HbaseX-Pack读写操作采用get方法,提供了批量获取数据方法,通过组装一个list<Get>gets即可实现。在上述的一种可进行大量数据处理的存储结构中,所述步骤A5中的低价数据库选用MySQL数据库,且MySQL数据库具有双节点架构、自动容灾的特点。与现有技术相比,本一种可进行大量数据处理的存储结构的优点在于:根据业务需求发现有低延迟随机读写要求的数据,基本集中在最近7天,所以使用开源的分布式面向列的数据库Hbase在存储数据的同时,根据行键RowKey读写能够提供优异的性能,同时因为只需要一定量的数据,所以在使用价格昂贵但性能优秀的SSD硬盘时,成本也能很好的得到控制。利用分布式列式数据库和SSD硬盘对业务场景进行优化,在提升服务性能的同时,降低硬件使用成本。附图说明图1为本专利技术提出的一种可进行大量数据处理的存储结构的列数据库结构原理图;图2为本专利技术提出的一种可进行大量数据处理的存储结构的HBaseX-Pack的说明结构图;图3为本专利技术提出的一种可进行大量数据处理的存储结构的数据说明示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。参照图1-3,一种可进行大量数据处理的存储结构,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;大量数据在存储时的方法大致包括以下步骤:A1、选用优秀的数据库工具,并选用HBaseX-Pack分布式列式数据库;A2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;A3、采样数据,进行数据挖掘,海量数据关联存储;A4、由HBaseX-Pack向外提供高性能的随机读写操作;A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。其中,所述步骤A1中选用的HBaseX-Pack是基于HBase及HBase生态构建的低成本一站式数据处理平台,且HBaseX-Pack支持HBaseAPI(包括RestServerThriftServer)、关系PhoenixSQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析SparkonHBase,所述HBaseX-Pack能够实现数据从处理、存储到分析全流程闭环。其中,所述步骤A2中在建立索引是通过Key来实现的,所述HBase表设计中最重要的就是定义Row-Key的结构,且定义Row-Key的结构时需要考虑表的接入样本,具体的,所述HBase表是通过RowKey的字典序来对一行行的数据来进行排序的,且表中每一块区域的划分都是通过开始RowKey和结束RowKey来决定的,所述HBase表中的所有存储数据都是二进制的字节并没有数据类型,另外,当开始设计HBase中的表的时候需要考虑以下的几个问题:1.RowKey的结构该如何设置,而RowKey中又该包含什么样的信息(这个很重要,下面的例子会有说明)2.表中应该有多少的列族3.列族中应该存储什么样的数据4.每个列族中存储多少列数据5.列的名字分别是什么,因为操作API的时候需要这些信息6.单元中(cell)应该存储什么样的信息7.每个单元中存储多少个版本信息其中,所述步骤A3中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能,同时因只保存少量的热点数据,降低硬件带来的成本。其中,所述步骤A4中HbaseX-Pack读写操作采本文档来自技高网...

【技术保护点】
1.一种可进行大量数据处理的存储结构,其特征在于,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;/n大量数据在存储时的方法大致包括以下步骤:/nA1、选用优秀的数据库工具,并选用HBase X-Pack分布式列式数据库;/nA2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;/nA3、采样数据,进行数据挖掘,海量数据关联存储;/nA4、由HBase X-Pack向外提供高性能的随机读写操作;/nA5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。/n

【技术特征摘要】
1.一种可进行大量数据处理的存储结构,其特征在于,包括列数据库,所述大量数据来源多个系统,且数据可能是文件、可能是其他关系型数据库中的交易数据,所述列数据库需要多个维度建立数据统计模型,且存储的数据来自于历史的,存档的,归纳的和计算的数据,所述列数据库需要访问大量的记录才能统计出结果,所述列数据库更新数据很少并且都是添加数据和查询数据;
大量数据在存储时的方法大致包括以下步骤:
A1、选用优秀的数据库工具,并选用HBaseX-Pack分布式列式数据库;
A2、对海量数据进行分区操作,并建立广泛的索引,建立缓存机制;
A3、采样数据,进行数据挖掘,海量数据关联存储;
A4、由HBaseX-Pack向外提供高性能的随机读写操作;
A5、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。


2.根据权利要求1所述的一种可进行大量数据处理的存储结构,其特征在于,所述步骤A1中选用的HBaseX-Pack是基于HBase及HBase生态构建的低成本一站式数据处理平台,且HBaseX-Pack支持HBaseAPI(包括RestServerThriftServer)、关系PhoenixSQL、时序OpenTSDB、全文Solr、时空GeoMesa、图HGraph和分析SparkonHBase,所述HBaseX-Pac...

【专利技术属性】
技术研发人员:冯报安杨晶生
申请(专利权)人:上海麦克风文化传媒有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1