数据预分区存储周期表创建方法、装置、设备和存储介质制造方法及图纸

技术编号:20916380 阅读:18 留言:0更新日期:2019-04-20 09:39
本发明专利技术公开了一种数据存储预分区周期表创建方法、装置、设备和存储介质,一种数据存储预分区周期表创建方法包括:配置待创建数据存储预分区周期表的配置参数,所述配置参数包括表名称规则、表创建周期、表区域分裂阈值与合并阈值、扩展参数,根据所述表的配置参数中的表名称规则、表创建周期和表区域分裂阈值与合并阈值创建表预分区文件,根据所述表预分区文件和所述扩展参数,动态创建数据存储预分区周期表。本发明专利技术公开的数据存储预分区周期表创建方法、装置、设备和存储介质,用于提高数据存储系统的性能和稳定性。

Method, Device, Equipment and Storage Medium for Creating Periodic Table of Data Pre-partitioned Storage

The invention discloses a data storage pre-partitioning periodic table creation method, device, device and storage medium. A data storage pre-partitioning periodic table creation method includes: configuring configuration parameters of data storage pre-partitioning periodic table to be created, the configuration parameters include table name rules, table creation period, table region split threshold and merge threshold, expansion parameters, according to the above. Table name rules, table creation cycle and table region splitting threshold and merging threshold in table configuration parameters create table pre-partitioning file, and dynamically create data storage pre-partitioning periodic table according to the table pre-partitioning file and the extended parameters. The invention discloses a data storage pre-partitioning periodic table creation method, device, device and storage medium for improving the performance and stability of the data storage system.

【技术实现步骤摘要】
数据预分区存储周期表创建方法、装置、设备和存储介质
本专利技术实施例涉及计算机技术,尤其涉及一种数据预分区存储周期表创建方法、装置、设备和存储介质。
技术介绍
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力,对大数据提供随机、实时的读写访问功能。HBase的数据分片按表进行,以行为粒度,基于主键(RowKey)范围进行拆分,每个分片称为一个区域(Region),包含所有行的一个子集,保存一个表里面的某段连续的数据。一个集群有多张表,每张表划分为多个Region,每台服务器服务很多Region。Region是HBase中分布式存储和负载均衡的最小单元,面对大数据平台产生的海量日志数据,一般采用分表处理,按照周期表的管理方式,例如每月建立一张新表,存储对应日期范围内产生的数据。因为HBase表按照区域进行分布式存储和负载均衡,所以需要提前创建表分区,称之为预分区。如果采用固定的预分区文件创建新表,随着时间不断地推移,数据是不断地增长的,并且分布规律也会发生变化,可能导致已经分好的区域已经装不住更多的数据,同时会进一步进行分裂(Split),分裂时会消耗宝贵的集群I/O资源,为了减少性能损耗问题,需要持续观察数据并定期维护,采取人工手动运维方式,不仅费时费力,还可能因为处理不及时给系统的稳定性带来巨大的风险。
技术实现思路
本专利技术提供一种数据存储预分区周期表创建方法、装置、设备和存储介质,以提高数据存储系统的性能和稳定性。第一方面,本专利技术实施例提供一种数据存储预分区周期表创建方法,包括:配置待创建数据存储预分区周期表的配置参数,所述配置参数包括表名称规则、表创建周期、表区域分裂阈值与合并阈值、扩展参数;根据所述表的配置参数中的表名称规则、表创建周期和表区域分裂阈值与合并阈值创建表预分区文件;根据所述表预分区文件和所述扩展参数,动态创建数据存储预分区周期表。在第一方面一种可能的实现方式中,所述根据所述表的配置参数中的表名称规则、表创建周期和表区域分裂阈值与合并阈值创建表预分区文件,包括:根据所述表的配置参数中的表名称规则和表创建周期,获取以上一周期的数据存储预分区周期表作为采样表;根据所述表创建周期和表区域分裂阈值与合并阈值,动态计算调整所述采样表,得到所述表预分区文件。在第一方面一种可能的实现方式中,所述根据所述表的配置参数中的表名称规则和表创建周期,获取以上一周期的数据存储预分区周期表作为采样表,包括:在第一次创建数据存储预分区周期表是,使用预设的表初始预分区文件作为所述采样表。在第一方面一种可能的实现方式中,所述根据所述表创建周期和表区域分裂阈值与合并阈值,动态计算调整所述采样表,得到所述表预分区文件,包括:按区域循环遍历所述采样表的数据文件,计算每个区域的存储空间大小;根据所述表创建周期和表区域分裂阈值与合并阈值判断所述每个区域的存储空间大小是否超过所述分裂阈值或所述合并阈值;对存储空间大小是否超过所述分裂阈值或所述合并阈值的区域进行分裂或合并处理,得到所述表预分区文件。在第一方面一种可能的实现方式中,所述根据所述表预分区文件和所述扩展参数,动态创建数据存储预分区周期表,包括:根据创建需求,在所述表预分区文件中添加所述扩展参数,得到所述数据存储预分区周期表,所述扩展参数包括列族、压缩算法、数据块缓存属性、数据块大小、保存的版本数、最小存储版本数中的至少一种。第二方面,本专利技术实施例还提供了一种数据存储预分区周期表创建装置,包括:参数配置模块,用于配置待创建数据存储预分区周期表的配置参数,所述配置参数包括表名称规则、表创建周期、表区域分裂阈值与合并阈值、扩展参数;文件创建模块,用于根据所述表的配置参数中的表名称规则、表创建周期和表区域分裂阈值与合并阈值创建表预分区文件;表创建模块,用于根据所述表预分区文件和所述扩展参数,动态创建数据存储预分区周期表。在第二方面一种可能的实现方式中,所述文件创建模块,具体用于根据所述表的配置参数中的表名称规则和表创建周期,获取以上一周期的数据存储预分区周期表作为采样表;根据所述表创建周期和表区域分裂阈值与合并阈值,动态计算调整所述采样表,得到所述表预分区文件。在第二方面一种可能的实现方式中,所述文件创建模块,具体用于按区域循环遍历所述采样表的数据文件,计算每个区域的存储空间大小;根据所述表创建周期和表区域分裂阈值与合并阈值判断所述每个区域的存储空间大小是否超过所述分裂阈值或所述合并阈值;对存储空间大小是否超过所述分裂阈值或所述合并阈值的区域进行分裂或合并处理,得到所述表预分区文件。在第二方面一种可能的实现方式中,所述表创建模块,具体用于根据创建需求,在所述表预分区文件中添加所述扩展参数,得到所述数据存储预分区周期表,所述扩展参数包括列族、压缩算法、数据块缓存属性、数据块大小、保存的版本数、最小存储版本数中的至少一种。第三方面,本专利技术实施例还提供了一种数据存储预分区周期表创建设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面任一种可能的实现方式的数据存储预分区周期表创建方法第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面任一种可能的实现方式的数据存储预分区周期表创建方法。本专利技术实施例提供的数据存储预分区周期表创建方法、装置、设备和存储介质,首先配置待创建数据存储预分区周期表的配置参数,所述配置参数包括表名称规则、表创建周期、表区域分裂阈值与合并阈值、扩展参数,然后根据所述表的配置参数中的表名称规则、表创建周期和表区域分裂阈值与合并阈值创建表预分区文件,最后根据所述表预分区文件和所述扩展参数,动态创建数据存储预分区周期表,这种方式使新创建的表尽可能符合数据增长规律,在数据随时间推移而变化时,也不会产生数据量过大的高负载热点区域,或者数据量很小甚至为空的低负载区域,让数据区域分布均衡,集群服务器负载均衡,从而提高集群的性能和稳定性,同时通过任务调度自动优化,避免人工手动运维,降低运营维护成本。附图说明图1为本专利技术实施例提供的数据存储预分区周期表创建方法实施例一的流程图;图2为本专利技术实施例提供的数据存储预分区周期表创建方法实施例二的流程图;图3为本专利技术实施例提供的数据存储预分区周期表创建装置实施例一的结构示意图;图4为本专利技术实施例提供的数据存储预分区周期表创建设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。图1为本专利技术实施例提供的数据存储预分区周期表创建方法实施例一的流程图,如图1所示,本实施例提供的数据存储预分区周期表创建方法包括:步骤S101,配置待创建数据存储预分区周期表的配置参数,所述配置参数包括表名称规则、表创建周期、表区域分裂阈值与合并阈值、扩展参数。本实施例提供的数据存储预分区周期表创建方法可以应用于HBase系统本文档来自技高网...

【技术保护点】
1.一种数据存储预分区周期表创建方法,其特征在于,包括:配置待创建数据存储预分区周期表的配置参数,所述配置参数包括表名称规则、表创建周期、表区域分裂阈值与合并阈值、扩展参数;根据所述表的配置参数中的表名称规则、表创建周期和表区域分裂阈值与合并阈值创建表预分区文件;根据所述表预分区文件和所述扩展参数,动态创建数据存储预分区周期表。

【技术特征摘要】
1.一种数据存储预分区周期表创建方法,其特征在于,包括:配置待创建数据存储预分区周期表的配置参数,所述配置参数包括表名称规则、表创建周期、表区域分裂阈值与合并阈值、扩展参数;根据所述表的配置参数中的表名称规则、表创建周期和表区域分裂阈值与合并阈值创建表预分区文件;根据所述表预分区文件和所述扩展参数,动态创建数据存储预分区周期表。2.根据权利要求1所述的方法,其特征在于,所述根据所述表的配置参数中的表名称规则、表创建周期和表区域分裂阈值与合并阈值创建表预分区文件,包括:根据所述表的配置参数中的表名称规则和表创建周期,获取以上一周期的数据存储预分区周期表作为采样表;根据所述表创建周期和表区域分裂阈值与合并阈值,动态计算调整所述采样表,得到所述表预分区文件。3.根据权利要求2所述的方法,其特征在于,所述根据所述表的配置参数中的表名称规则和表创建周期,获取以上一周期的数据存储预分区周期表作为采样表,包括:在第一次创建数据存储预分区周期表是,使用预设的表初始预分区文件作为所述采样表。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述表创建周期和表区域分裂阈值与合并阈值,动态计算调整所述采样表,得到所述表预分区文件,包括:按区域循环遍历所述采样表的数据文件,计算每个区域的存储空间大小;根据所述表创建周期和表区域分裂阈值与合并阈值判断所述每个区域的存储空间大小是否超过所述分裂阈值或所述合并阈值;对存储空间大小是否超过所述分裂阈值或所述合并阈值的区域进行分裂或合并处理,得到所述表预分区文件。5.根据权利要求1~3任一项所述的方法,其特征在于,所述根据所述表预分区文件和所述扩展参数,动态创建数据存储预分区周期表,包括:根据创建需求,在所述表预分区文件中添加所述扩展参数,得到所...

【专利技术属性】
技术研发人员:张志远李艳红石志中张俊杰
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1