一种面向实时数据库的实时文件系统数据组织管理方法技术方案

技术编号:11637703 阅读:75 留言:0更新日期:2015-06-24 12:24
本发明专利技术公开了一种面向实时数据库的实时文件系统数据组织管理方法,该方法主要包括:采用了数据库和文件系统融合的技术,将实时数据库中归档数据的索引方式和文件系统中数据的索引方式融合在一起,即在文件系统中实现历史数据的组织和管理。数据组织管理方法按照时间段-点-时间段来管理数据,如说明书摘要附图所示,按照工业采样批次的时间信息来存取归档数据,将数据的时间信息分为不同的时间段,共含有四级时间段,采用时间作为索引。保证了大规模工业采集数据的高速写入。

【技术实现步骤摘要】

本专利技术涉及实时数据库技术和实时文件系统技术,特别是指一种针对实时数据库 的实时文件系统数据组织管理的方法。
技术介绍
实时数据库是数据库技术与实时系统结合的产物。实时数据库在流程行业(石 化,电力,钢铁)有着广泛的应用。它可用于生产过程的自动采集、存储和监视,也可在线存 储每个工艺采样点的多年数据,是企业MES的核心。实时数据库的最主要特征就是其数据 和任务具有显式定时限制,但是由于实时数据库主要应用于流程行业,而流程行业通常采 样点数规模比较大,要求实时性的同时也要求完成大规模归档数据的存储和检索,以便以 后分析和事故追忆,因此实时数据库如何高效地对所要存储的数据进行有效的组织管理, 就成了决定实时数据库性能好坏的关键因素。 目前的实时数据库产品,在历史数据组织管理上,存在诸多问题,主要体现在底层 采用通用的文件系统,如ext4、FAT32等,而大多数通用文件系统采用层次结构和目录索引 机制,这种分级机制在文件分类管理、文件数目的动态增减、文件数据的动态增长方面有着 高效的性能,但是在特定的应用需求下,如存储管理以点为单元的大规模工业数据时,则会 限制系统的性能。 将归档数据建立在普通文件系统之上,除了建立归档数据本身的数据索引信息 外,还需要在文件系统层上建立和维护文件系统本身的目录、文件之间的索引关系。随着采 集点规模的增大,单位时间内数据的增多,将会给数据库系统带来很大的时延。归档数据具 有较明显的时间序列性和以点为单位的独立性,可以利用这一特征,将实时数据库中数据 的归档管理与文件系统中数据的管理结合起来,减少数据索引建立的次数和时间,满足实 时数据库能够及时的将归档数据写入到磁盘上的要求,同时,也能够消除原来文件系统的 一些限制,如目录数、文件数、文件大小的限制等。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种面向实时数据库的实时文件系统数据 组织管理的方法,该方法采用了数据库和文件系统融合的技术,所述的数据库和文件系统 融合技术是指将实时数据库中归档数据的索引方式和文件系统中数据的索引方式融合在 一起,即在文件系统中实现历史数据的组织和管理。所述的数据组织管理方法按照工业采 样批次的时间信息来存取归档数据,保证了大规模工业采集数据的高速写入。 所述的数据组织管理的方法是按照时间段-点-时间段来管理数据,如图1所示。 主要包括以下6方面的内容:按照不同时间段组织数据,结合点索引,结构化的数据块,索 引数据与磁盘的累计数据量没有关系,数据顺序存储和数据索引方式。 所述的按照不同时间段组织数据,是指工业数据含有较强的时间信息,同时这些 数据不断的按照时间序列写入到磁盘上,因此将数据的时间信息分为不同的时间段,按照 时间段来组织管理数据,采用时间作为索引,时间段与普通文件系统中的目录类似,在查找 数据时,首先选中目标时间段,然后在目标时间段内查询数据,从而减少数据查询时间。 所述的结合点索引,是指在时间段与时间段之间,加入点索引信息,使得原来在两 个不同的时间段之间同一个点的数据通过点索引信息的存在连接起来,便于在数据块间逆 向遍历查询。 所述的结构化的数据块,是指在常规的文件系统中,数据是被上一层索引所管理, 其地址信息记录在上一层索引中。在本专利技术中,由于每一个点在一个时间段内的数据量比 较小,同时每一个点的数据相对于这个时间段而言,这些数据类似碎文件。如果管理这么多 碎文件,会占用很大的磁盘空间,同时预留的空间会带来很多磁盘碎片。因此我们在数据块 中做了一次索引记录,这样,在整个磁盘使用过程中,不会造成磁盘碎片。 所述的索引数据与磁盘的累计数据量没有关系,是指在索引某点的数据时,与该 点的累计数据量无关,与该点在某个时间段内的数据量有关,而在这个相关的时间段内,该 点的数据规模是很小的,在索引时,对内存的压力小,因此,在索引多个点同一时刻的数据 时,也不会造成系统崩溃。 所述的数据顺序存储,是指实时数据库中的归档数据按照时间顺序不断的写入数 据库,如果采用常规文件系统,需要不断的移动磁头,来维护数据文件的索引信息。而本发 明将同一批归档数据顺序写入磁盘,减少磁头的移动和寻找合适磁道的时间,同时也能够 减少系统调用的时间。 所述的数据索引方式,是指在文件系统系统中从上到下共含有四级时间信息,如 图2所示。第一级的时间段跨度最大。第二级的时间段跨度比较小,通常可以为24小时、10 小时、1小时,第二级时间段的跨度要根据配置的点数规模、点的采样频率、点的压缩率来确 定,如果时间跨度太大,其索引信息的有效性将会降低。第三级时间段是包含在数据中,这 一级的时间信息只和某一个具体的点有关系,因此第三级时间段的时间跨度和某个点的采 样率相关,如果点的采样率在秒级,那么这一级的时间间隔就是数秒,每一条数据中含有时 间信息,时间信息是前向做差分。在第二级时间段信息和第三级时间段信息之间加入了点 索引信息,将原来按照时间排列的数据拆分为按照点管理。点以后的时间段信息只和点有 关系,从这一级时间开始,可以逆向回朔的方法来索引数据,向前回滚的过程中,跨越的时 间段和具体的采样点有关。最后一级的时间信息是跟随每一条数据的,这符合对工业数据 的定义〈点、时间、数值〉,保证了数据的完整性。 按照如图2所示的数据索引方式,对累计一批的归档数据,将其按照数据块的格 式归档到一个数据块中,所述的数据块格式为〈点、时间偏移、数值〉,提取第三级时间段信 息、第二级时间段信息、第一级时间段信息,然后将新的索引信息更新到不同的时间段中, 同时更新第二级时间段中的点信息。如果第二级时间段溢出,则需要建立新的第二级时间 段在磁盘上。同理,如果第一级时间段溢出,则需要建立新的第一级时间段。因为时间是均 匀流逝的,所以第一级时间段和第二级时间段在时间轴上等间隔分布的。 查询某一点在某一时刻的数据,将目标时间按照三个时间段的时间间隔,得到三 个时间段,然后从根目录查找第一级时间段,如果失败,则不存在目标数据,在第一个时间 段下再查找第二级时间段,如果失败,则目标时间段不存在。然后在第二级时间段内查找目 标点,如果目标点不存在,则不含有目标点的数据,然后找到这个点在最后一级时间段,查 看是否命中目标时间点,如果没有命中,则需要向前回滚来查询目标时间段。 为了提高目标数据的命中率,减少查询时间和磁头移动的距离,在文件系统中保 留了每个点的以下信息。点建立时间(St),采样周期(T),数据压缩率(R),所述的数据压缩 率这一数值是长期统计分析获得的,采样点的数据在一个周期内波动,则其压缩率会稳定 的集中于某一值。设一块可以写入该点数据条目为N,两个第二级时间段的时间间隔为TR, 则可以计算出目标数据的第二级时间段满一块的周期tb,tb的计算公式如下【主权项】1. 一种实时文件系统数据组织管理方法,其特征在于:按照时间段-点-时间段来管 理数据,该方法包括:按照不同时间段组织数据,结合点索引,结构化的数据块,索引数据与 磁盘的累计数据量没有关系,数据顺序存储和数据索引方式。2. 根据权利要求1所述实时文件系统数据组织管理方法,其特征在于:所述的按照不 同时间段组织数据,是指将数据的时间信息分为不同的时间段,共含有四本文档来自技高网
...

【技术保护点】
一种实时文件系统数据组织管理方法,其特征在于:按照时间段‑点‑时间段来管理数据,该方法包括:按照不同时间段组织数据,结合点索引,结构化的数据块,索引数据与磁盘的累计数据量没有关系,数据顺序存储和数据索引方式。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐新国康卫李林朱廷劭
申请(专利权)人:中国电子信息产业集团有限公司第六研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1