一种热数据高性能存储架构制造技术

技术编号:23890663 阅读:30 留言:0更新日期:2020-04-22 06:20
本发明专利技术属于大数据存储技术领域,尤其是涉及一种热数据高性能存储架构,包括开源处理平台Kafka和Hbase开源数据库,所述热数据包括7天内的热点业务数据,且热数据的存储过程包括以下步骤:监听来自于开源的消息队列Kafka的实时日志数据;将日志数据实时存入Hbase中,同时设置自动过期时间;由Hbase向外提供高性能的随机读写操作;每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。本发明专利技术提出将数据进行筛选和抽取,根据业务只保存所需要时间短的近期数据,同时使用分布式列式数据库来存储,通过放弃传统数据库提供的强一致性和事务性,来大幅度提升巨大用户量情形下的随机读写性能。

A high performance thermal data storage architecture

【技术实现步骤摘要】
一种热数据高性能存储架构
本专利技术涉及大数据存储
,尤其涉及一种热数据高性能存储架构。
技术介绍
线上服务对于响应的延迟是十分敏感的,任何过长的查询或操作时间,都会导致服务使用的体验严重下降,并造成用户的流失。然而随着目前业务的扩展,数据量越来越大,传统的关系型数据库很难再满足日益增长的需求,所以需要使用一种更加现代和新型的存储模型。另外,根据线上业务的需求,极大多数情况下,都是只需要访问最近几天的数据,所以即使在用户量上亿的情况下,依然也可以控制住所需要的存储空间用量。所以,在选择硬件时,可以选择价格昂贵但性能优异的SSD硬盘来更一步提升性能。为此,我们提出一种热数据高性能存储架构来解决上述问题。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种热数据高性能存储架构。为了实现上述目的,本专利技术采用了如下技术方案:一种热数据高性能存储架构,包括开源处理平台Kafka和Hbase开源数据库,所述热数据包括7天内的热点业务数据,且热数据的存储过程包括以下步骤:S1、监听来自于开源的消息队列Kafka的实时日志数据;S2、将日志数据实时存入Hbase中,同时设置自动过期时间(如7天);S3、由Hbase向外提供高性能的随机读写操作;S4、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。在上述的一种热数据高性能存储架构中,所述步骤S1中Kafka的安装方式包括以下步骤:A1、进入Kafka配置目录,D:\dev\kafka_2.12-1.0.1;A2、编辑文件“server.properties”;A3、找到并编辑log.dirs=D:\\dev\\kafka_2.12-1.0.1\mp。在上述的一种热数据高性能存储架构中,所述步骤S1中用于监听开源处理平台Kafka的方式包括以下操作步骤:B1、安装zookeeper,进入Zookeeper设置目录,笔者D:\dev\zookeeper-3.4.10\conf;B2、将“zoo_sample.cfg”重命名为“zoo.cfg”;B3、在任意文本编辑器(如notepad)中打开zoo.cfg;B4、找到并编辑dataDir=D:\\dev\\zookeeper-3.4.10\empB5、运行zookeeper,D:\dev\zookeeper-3.4.10\bin\zkServer.cmd;B6、进入Kafka安装目录D:\dev\kafka_2.12-1.0.1;B7、按下Shift+右键,选择“打开命令窗口”选项,打开命令行;B8、现在输入.\bin\windows\kafka-server-start.bat.\config\server.properties。在上述的一种热数据高性能存储架构中,所述步骤S2中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能。在上述的一种热数据高性能存储架构中,所述步骤S3中Hbase提供的get方法提供了批量获取数据方法,通过组装一个list<Get>gets即可实现。在上述的一种热数据高性能存储架构中,所述步骤S4中的低价数据库选用MySQL数据库,且MySQL数据库具有双节点架构、自动容灾的特点,对比云主机自建能够减少40%的成本开销。与现有技术相比,本一种热数据高性能存储架构的优点在于:创新之处在于将数据进行筛选和抽取,根据业务只保存所需要时间短的近期数据,同时使用分布式列式数据库来存储,通过放弃传统数据库提供的强一致性和事务性,来大幅度提升巨大用户量情形下的随机读写性能;同时因为降低了整体的数据存储用量,所以可以使用性能优异但价格昂贵的SSD硬盘。这样可以达到读写延迟的更一步的降低的同时,成本也得到了很好的控制。对于需要随机读写的热点数据,使用Hbase和SSD硬盘来提供平均20ms的随机读性能。附图说明图1为本专利技术提出的一种热数据高性能存储架构的方法步骤图;图2为本专利技术提出的一种热数据高性能存储架构的数据介绍示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。参照图1-2,一种热数据高性能存储架构,包括开源处理平台Kafka和Hbase开源数据库,热数据包括7天内的热点业务数据,且热数据的存储过程包括以下步骤:S1、监听来自于开源的消息队列Kafka的实时日志数据;S2、将日志数据实时存入Hbase中,同时设置自动过期时间(如7天);S3、由Hbase向外提供高性能的随机读写操作;S4、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。具体的,步骤S1中Kafka的安装方式包括以下步骤:A1、进入Kafka配置目录,D:\dev\kafka_2.12-1.0.1;A2、编辑文件“server.properties”;A3、找到并编辑log.dirs=D:\\dev\\kafka_2.12-1.0.1\mp。更具体的,步骤S1中用于监听开源处理平台Kafka的方式包括以下操作步骤:B1、安装zookeeper,进入Zookeeper设置目录,笔者D:\dev\zookeeper-3.4.10\conf;B2、将“zoo_sample.cfg”重命名为“zoo.cfg”;B3、在任意文本编辑器(如notepad)中打开zoo.cfg;B4、找到并编辑dataDir=D:\\dev\\zookeeper-3.4.10\empB5、运行zookeeper,D:\dev\zookeeper-3.4.10\bin\zkServer.cmd;B6、进入Kafka安装目录D:\dev\kafka_2.12-1.0.1;B7、按下Shift+右键,选择“打开命令窗口”选项,打开命令行;B8、现在输入.\bin\windows\kafka-server-start.bat.\config\server.properties。并且在监听时可按照如下两种方式:方式一:方式二:其中,步骤S2中使用SSD硬盘来作为硬件用于存储业务数据并提供良好性能,同时因只保存少量的热点数据,降低硬件带来的成本。其中,步骤S3中Hbase提供的get方法提供了批量获取数据方法,通过组装一个list<Get>gets即可实现。其中,步骤S4中的低价数据库选用MySQL数据库,且MySQL数据库具有双节点架构、自动容灾的特点,对比云主机自建本文档来自技高网...

【技术保护点】
1.一种热数据高性能存储架构,其特征在于,包括开源处理平台Kafka和Hbase开源数据库,所述热数据包括7天内的热点业务数据,且热数据的存储过程包括以下步骤:/nS1、监听来自于开源的消息队列Kafka的实时日志数据;/nS2、将日志数据实时存入Hbase中,同时设置自动过期时间(如7天);/nS3、由Hbase向外提供高性能的随机读写操作;/nS4、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。/n

【技术特征摘要】
1.一种热数据高性能存储架构,其特征在于,包括开源处理平台Kafka和Hbase开源数据库,所述热数据包括7天内的热点业务数据,且热数据的存储过程包括以下步骤:
S1、监听来自于开源的消息队列Kafka的实时日志数据;
S2、将日志数据实时存入Hbase中,同时设置自动过期时间(如7天);
S3、由Hbase向外提供高性能的随机读写操作;
S4、每日定时将前一日数据进行聚合同步归档至其他低性能但低价的数据库。


2.根据权利要求1所述的一种热数据高性能存储架构,其特征在于,所述步骤S1中Kafka的安装方式包括以下步骤:
A1、进入Kafka配置目录,D:\dev\kafka_2.12-1.0.1;
A2、编辑文件“server.properties”;
A3、找到并编辑log.dirs=D:\\dev\\kafka_2.12-1.0.1\\tmp。


3.根据权利要求2所述的一种热数据高性能存储架构,其特征在于,所述步骤S1中用于监听开源处理平台Kafka的方式包括以下操作步骤:
B1、安装zookeeper,进入Zookeeper设置目录,笔者D:\dev\zookeeper-3.4.10\conf;
B2、将“zoo_sample.cfg”重命名为“zoo.cfg”;<...

【专利技术属性】
技术研发人员:冯报安杨晶生
申请(专利权)人:上海麦克风文化传媒有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1