一种电网时序大数据并行加载方法技术

技术编号:11133029 阅读:468 留言:0更新日期:2015-03-12 03:20
本发明专利技术公开了一种电网时序大数据并行加载方法,以解决多客户端并行加载海量历史时序数据时遇到的不能并行加载而产生等待现象的问题。本发明专利技术通过对索引映射表做分区处理、根据待加载的数据量的大小对历史时序数据存储表做分区预处理、根据各数据节点上所分配的历史时序数据存储表分区的范围,对待加载的海量历史时序数据做保持数据局部性的处理,经过上述处理后能够有效减少并行加载海量历史时序数据时多客户端读写索引映射表文件遇到的磁盘IO冲突和集群不同节点之间网络通信开销,避免单节点加载海量历史时序数据时负载过重带来的性能问题。本方法能充分利用分布式并行处理能力,大大减少海量历史时序数据加载的时间。

【技术实现步骤摘要】

本专利技术涉及一种数据并行加载方法,属于大数据处理、分布式实时数据库领域,特别适用于智能电网、物联网中海量历史时序数据的并行加载方法。
技术介绍
随着工业化、信息化的不断发展,大型流程工业企业在生产信息化过程中产生越来越多的海量历史时序数据。以电力系统为例,一方面是测点规模越来越大,预计将达到千万级甚至亿级以上;另一方面是历史时序数据量规模越来越大,预计将达到PB字节以上,这对实时数据库的处理规模、处理速度提出了更高的要求。传统实时数据库受制于其传统的软件体系架构,在数据规模、处理能力、并行计算、负载均衡、动态自治等方面已无法满足实际应用需求。在实时数据库领域,引入大数据处理技术来解决上述问题是当前研究时序大数据处理的主要方法,而基于Hadoop+HBase的方法则是当前大数据处理事实上的标准(如图1所示)。对以HBase为存储层的大数据处理系统,为了提高系统的查询性能,一般对数据存储表的索引做哈希处理生成固定长度的字节数组,即单独建立一张表来完成数据存储本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201410566127.html" title="一种电网时序大数据并行加载方法原文来自X技术">电网时序大数据并行加载方法</a>

【技术保护点】
一种电网时序大数据并行加载方法,其特征在于,包括如下步骤:对索引映射表做分区处理,将索引映射表文件的不同分区均衡地分布到不同的数据节点上;根据待加载的数据量的大小对历史时序数据存储表做分区预处理;根据各数据节点上所分配的时序数据存储表分区的范围,对待加载的海量历史时序数据做保持数据局部性处理;启动多个客户端并行加载各自数据节点上的数据。

【技术特征摘要】
1.一种电网时序大数据并行加载方法,其特征在于,包括如下步骤:
对索引映射表做分区处理,将索引映射表文件的不同分区均衡地分布到不
同的数据节点上;
根据待加载的数据量的大小对历史时序数据存储表做分区预处理;
根据各数据节点上所分配的时序数据存储表分区的范围,对待加载的海量
历史时序数据做保持数据局部性处理;
启动多个客户端并行加载各...

【专利技术属性】
技术研发人员:王远袁军包建国胡健张珂珩
申请(专利权)人:江苏瑞中数据股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1