一种数据处理方法及装置制造方法及图纸

技术编号:5502156 阅读:304 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种数据处理方法及装置,用以避免磁盘输入I/O瓶颈问题,提高数据存储及查询的速度。本发明专利技术提供的一种数据处理方法包括:将采集的数据写入预先按照时间粒度划分的多个入库表中,每一入库表用于存储在特定时间段内采集的数据;当完成对入库表写入数据的操作时,将该入库表中的数据合并到分区表的与该入库表对应的分区中,所述分区表用于向用户提供需要查询的数据。

【技术实现步骤摘要】

本专利技术涉及通信
,尤其涉及一种数据处理方法及装置
技术介绍
通信技术的发展丰富了人们的沟通与生活,人们在享受这一便利的同时,对通讯 质量的要求越来越高。例如,信令监测系统就是一种以监测链路信令为手段来分析通讯质 量的统计分析型系统。该系统以采集的信令数据为依据,从多个维度来分析语音通讯和数 据通讯的质量。然而,由于现在网络规模巨大,因此系统采集到的信令等数据是海量的,因此,在 对这些数据的处理过程中,现有技术存在以下问题现有技术无法根据局方现场的实际情况,动态调整存储方式,无法支持应用系统 的不同维度的入库和查询,因此不能够在保证系统功能的前提下节省存储空间。数据查询所需要的索引的建立不够方便、快捷,无法平衡查询和索引维护所带来 的资源消耗之间的矛盾。对同一张数据库表同时进行写操作和读操作时,导致磁盘输入(I)/输出(0)瓶颈 问题,查询速度较慢。采集数据延迟到达,导致数据库中的数据不完整。
技术实现思路
本专利技术实施例提供了一种数据处理方法及装置,用以避免磁盘输入I/O瓶颈问 题,提高数据存储及查询的速度。本专利技术实施例提供的一种数据处理方法包括将采集的数据写入预先按照时间粒度划分的多个入库表中,每一入库表用于存储 在特定时间段内采集的数据;当完成对入库表写入数据的操作时,将该入库表中的数据合并到分区表的与该入 库表对应的分区中,所述分区表用于向用户提供需要查询的数据。本专利技术实施例提供的一种数据处理装置包括入库单元,用于将采集的数据写入预先按照时间粒度划分的多个入库表中,每一 入库表用于存储在特定时间段内采集的数据;合并单元,用于当完成对入库表写入数据的操作时,将该入库表中的数据合并到 分区表的与该入库表对应的分区中。本专利技术实施例,将采集的数据写入预先按照时间粒度划分的多个入库表中,每一 入库表用于存储在特定时间段内采集的数据;当完成对入库表写入数据的操作时,将该入 库表中的数据合并到分区表的与该入库表对应的分区中,所述分区表用于向用户提供需要 查询的数据,从而避免了磁盘输入I/O瓶颈问题,提高数据存储及查询的速度。附图说明图1为本专利技术实施例提供的一种数据处理方法的流程示意图;图2为本专利技术实施例提供的按不同时间粒度创建入库表和分区表的示意图;图3为本专利技术实施例提供的由分区表和入库表组成的视图的示意图;图4为本专利技术实施例提供的入库表中的数据在入库完毕后,合并到分区表对应的 分区中的示意图;图5为本专利技术实施例提供的在分区表的分区上创建本地索引的示意图;图6为本专利技术实施例提供的将分区表重命名为视图的名称,并删除入库表和视图 的示意图;图7为本专利技术实施例提供的一种数据处理装置的结构示意图。 具体实施例方式本专利技术实施例提供了一种数据处理方法及装置,针对海量数据分析系统中数据存 储、查询性能等方面,实现了批量数据加载、大数据量查询等系统中的数据库技术,用以避 免磁盘I/O瓶颈问题,提高数据存储及查询的速度。为了解决海量数据批量加载、实时查询中遇到的问题,本专利技术实施例提供了一种 按不同时间粒度划分用于存储采集数据的入库表、按时间顺序建立分区表的分区的本地索 引,分离入库表和分区表的数据库平台。该方案经过在大数据量环境的测试、验证,能够较 好的支持系统运行,实现海量数据实时采集、批量加载、实时查询,解决海量数据在入库、查 询过程中遇到的入库速度缓慢、查询速度缓慢、磁盘I/O瓶颈、数据延迟导致数据库数据存 储不完整等问题。其中,本专利技术实施例中所述的入库表,即用于存储在特定时间段内采集的数据的 数据库表。本专利技术实施例按照时间粒度建立不同的入库表,例如,建立24个入库表,编号分 别从0到23,每一入库表用于存储1小时内的采集数据,0号入库表用于存储0点-1点时 间段内采集到的数据,1号入库表用于存储1点_2点时间段内采集到的数据,2号入库表用 于存储2点-3点时间段内采集到的数据,以此类推,24个入库表用于存储一天(24小时) 内采集到的数据。并且,本专利技术实施例中所述的分区表中包括的分区,与每一入库表一一对应,即当 建立了 24个入库表时,分区表中也会包括24个分区,用于转存入库表中的数据。例如,当 时间超过1点时,可以将0号入库表中的数据存储到0号分区中,然后删除0号入库表中的 数据;当时间超过2点时,可以将1号入库表中的数据合并到1号分区中,然后删除1号入 库表中的数据;以此类推,直到将23号入库表中的数据合并到23号分区中,然后删除23号 入库表中的数据。本专利技术实施例中所述合并,即将数据从入库表中搬移到分区表中对应的分区中。下面结合附图对本专利技术实施例提供的技术方案进行说明。参见图1,本专利技术实施例提供的一种数据处理方法包括步骤S101、将采集的数据写入预先按照时间粒度划分的多个入库表中,每一入库表用 于存储在特定时间段内采集的数据;S102、当完成对入库表写入数据的操作时,将该入库表中的数据合并到分区表的与该入库表对应的分区中。较佳地,入库表和分区表分别对应不同的磁盘空间。进一步来避免磁盘的I/O瓶颈。较佳地,所述当完成对入库表写入数据的操作时,将该入库表中的数据合并到分 区表的与该入库表对应的分区中,包括当超过入库表对应的特定时间段时,将该入库表中的数据合并到分区表的与该入 库表对应的分区中,然后清空该入库表。较佳地,所述当超过入库表对应的特定时间段时,将该入库表中的数据合并到分 区表的与该入库表对应的分区中之后,该方法还包括建立该分区的本地索引。例如,当时间超过1点时,可以将0号入库表中的数据合并到0号分区中,然后删 除0号入库表中的数据,并且,建立0号分区的本地索引。具体如何建立本地索引,属于现 有技术,此处就不予以赘述。较佳地,该方法还包括建立由入库表和分区表组成的视图,用于向用户提供数据查询功能。在没有完成将所有入库表中的数据合并到分区表中之前,所有数据的查询都可以 在该视图中进行,该视图相当于一个虚拟表,里面包含了已经采集入库的所有数据。因此, 不论是在入库表里的数据,还是在分区表里的数据均可以查询到。具体如何建立由入库表和分区表组成的视图,也属于现有技术,此处就不予以赘 述。较佳地,该方法还包括当首次完成将所有入库表中的数据合并到分区表中,并且,当到达预设的最大延 迟时间时,再次将存有数据的入库表中的数据合并到分区表的分区中。该步骤的目的是防止遗漏延迟到达的采集数据,保证入库数据的完整性。例如在 0点-ι点时间段内采集到的数据,没有在0点-1点到达0号入库表,而是延迟了一段时间 到达,而当时间超过1点时,0号入库表中的数据存储到0号分区中,但延迟到达的数据还会 存储在0号入库表中,因此,为了保证分区表中的数据的完整性,需要在首次完成将所有入 库表中的数据合并到分区表中,并且,当到达预设的最大延迟时间时,再次将入库表中的数 据(即延迟到达的数据)合并到分区表的对应的分区中。较佳地,所述再次将存有数据的入库表中的数据合并到分区表的分区中之后,该 方法还包括删除所有入库表,并且将分区表重新命名为所述视图的名称,然后删除所述视图。 即只保留一张分区表以做查询之用。其中,将分区表重新命名为视图的名称,是为了防止用 户输入视图名称查询数据,而显示文件不存在,也就是说,对于用户而言,查询的操作没有本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,该方法包括:将采集的数据写入预先按照时间粒度划分的多个入库表中,每一入库表用于存储在特定时间段内采集的数据;当完成对入库表写入数据的操作时,将该入库表中的数据合并到分区表的与该入库表对应的分区中。

【技术特征摘要】

【专利技术属性】
技术研发人员:李兴彦
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:94[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1