一种海量时序数据的存储方法技术

技术编号：9718861 阅读：196 留言：0更新日期：2014-02-27 05:39

一种海量时序数据的存储方法，属于数据管理技术领域。采用设计精简的HBase主键，并根据不同类型时序数据的存储及访问特性对时序数据分类并设计存储机制：对于实时数据、大周期数据以及无周期数据，采用简单行存储，即一条时序数据对应一条HBase行记录，通过简单行存储实现快速插入及检索数据；对于历史数据，采用把某一时段内的历史时序数据存储为HBase的一条行记录的段存储机制，通过段存储实现快速、高吞吐性能的历史数据数据检索数。优点在于，解决了具有实时访问性能的海量时序数据存储问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据管理
，特别涉及。
技术介绍
时序数据是一种具有时间属性和值属性的数据。时序数据的时间属性也称为该时序数据的时间戳。以流程工业为例，包括化工、冶金、建筑、电力等等，存在着海量的时序数据。这些时序数据具体有:仪表的计量数据，生产计划数据，成本核算数据等。对于大型流程工业企业，一般有几十个分厂或车间，有几十万点级的仪表计量，一年产生的时序数据的规模在TB级。面对如此大规模的数据，许多企业在建设信息系统时采用分而治之的策略:每个分厂或车间拥有自己的数据存储系统，而企业层面存储的数据主要是汇总后的数据。在工业化与信息化深入融合的今天，许多企业要求进一步提高信息化水平，要求建立企业级的数据平台，即实现对企业各车间所有计量数据等时序数据的统一集中管理，并基于此解决当前车间级多个数据存储系统造成的数据孤岛、数出多源等问题，实现更好的生产管控。企业级的数据平台需要一个企业级数据存储系统。该存储系统需要具有良好地弹性可扩展能力，以支持日渐增大的数据存储规模，且具有快速访问性能，以满足数据报警、实时查询、曲线查看等实时应用需求。当前，在流程工业面临着海量数据时序存储管理的困境时，互联网公司也在面临着海量数据管理的难题。以Hadoop、HBase等为代表的大数据技术为海量数据管理提供了一种解决方案，并为当前淘宝、百度、搜狐等许多互联网公司采用。Hadoop提供了一种可靠、可伸缩的分布式文件系统，HBase是一种高性能、面向列存储的分布式数据存储系统。在专利《一种基于Hadoop+Hbase的农业时序数据组织方法》(专利申请号:2012101...

【技术保护点】
一种海量时序数据的存储方法，其特征在于：工艺步骤：（1）采用HBase集群来直接管理企业的时序数据，由HBase写数据到Hadoop分布式文件系统，最终由Hadoop归档数据到磁盘；外部用户通过访问HBase来读、写、删除时序数据；（2）企业的每个需要存储的时序数据点均具有唯一Id，通过数据点Id定位具体的数据点并获取数据点名称等信息，其中，Id为大于或等于0的长整型数据，这使得数据存储系统支持万亿级的数据点管理；（3）数据增加和数据修改均是数据写的一种特殊形式，在HBase中均通过Put操作完成，把数据增加和数据修改均统一到数据写入操作；在数据写入时，每个数据点的一条或多条时序记录成为HBase数据表的一条行记录；行记录包括行键rowkey和值部分；HBase数据表通过行键区分行记录；行键设计为比特串，具体为：数据点Id.toBytes+时间戳.toBytes，其中数据点Id在前，时间戳在后，它们一前一后把同一数据点的数据聚在一起，方便查询某一数据点在某一时段的数据；Id为长整型，最多占用8字节，且根据数据点Id的值大小来自动选取最短长度的比特流，小于256的Id只需用1个字节；时间...

【技术特征摘要】
1.一种海量时序数据的存储方法，其特征在于:工艺步骤:(1)采用HBase集群来直接管理企业的时序数据，由HBase写数据到Hadoop分布式文件系统，最终由Hadoop归档数据到磁盘；外部用户通过访问HBase来读、写、删除时序数据；(2)企业的每个需要存储的时序数据点均具有唯一Id，通过数据点Id定位具体的数据点并获取数据点名称等信息，其中，Id为大于或等于O的长整型数据，这使得数据存储系统支持万亿级的数据点管理；(3)数据增加和数据修改均是数据写的一种特殊形式，在HBase中均通过Put操作完成，把数据增加和数据修改均统一到数据写入操作；在数据写入时，每个数据点的一条或多条时序记录成为HBase数据表的一条行记录；行记录包括行键rowkey和值部分；HBase数据表通过行键区分行记录；行键设计为比特串，具体为:数据点Id.toBytes+时间戳.toBytes，其中数据点Id在前，时间戳在后，它们一前一后把同一数据点的数据聚在一起，方便查询某一数据点在某一时段的数据；Id为长整型，最多占用8字节，且根据数据点Id的值大小来自动选取最短长度的比特流，小于256的Id只需用I个字节；时间戳精确到毫秒，也采用长整型表示，占用8个字节，行键最多占用16字节；(4)具体哪个数据点的时序数据写入到哪张HBase数据表中，由平衡存储机制来控制；通过平衡存储，实现在数据访问时把网络I/O和磁盘I/O分布到集群中多个机器上，提高总的网络吞吐量和磁盘吞吐量；通过为每个数据点定义一个启发知识来实现平衡存储；在读、写某一数据点的数据时，根据数据点的启发知识确定其HBase数据表；(5)按照是否周期性的有数据，把时序数据点分为两类:周期性的，即数据点每隔指定时间就有一条时序数据；无周期的，即该数据点数据流的时间戳是没有周期性规律的；按照周期数据点的周期大小，把周期性数据点分为小周期数据点和大周期数据点；其中，用于分类的周期阈值通过配置设定；按照数据新旧，把小周期性数据点的具体时序数据分为两类:历史数据，指时间戳在某一时刻之前的数据；实时数据，指除历史数据以外的数据。历史数据和实时数据的分割时刻实际也是实时数据起始时刻。用户在访问周期性数据点时，主要是访问某一时刻的实时数据，或者访...

【专利技术属性】
技术研发人员：朱寅，李勇，徐化岩，于立业，黄霜梅，余志刚，赵博，贾天云，梁青艳，王丽娜，
申请(专利权)人：冶金自动化研究设计院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人