一种电网海量数据管理方法技术

技术编号:12345962 阅读:85 留言:0更新日期:2015-11-18 18:34
本发明专利技术提供了一种电网海量数据管理方法,该方法包括:构建电网用户数据管理系统,将各个电网子系统采集到的数据进行整合,并利用并行计算框架对电网用户的数据进行挖掘和分析;基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测。本发明专利技术提出了一种电网海量数据管理方法,将电网用户各系统的数据进行融合和集成,并将传统数据计算方法迁移到分布式平台中,满足海量数据的运算要求。

【技术实现步骤摘要】

本专利技术涉及智能电网,特别涉及。
技术介绍
对电网用户实时数据的采集、传输和存储,并结合累积的海量多源历史数据进行快速分析能够有效的改善需求管理,对用户数据进行管理与处理支撑着智能电网安全、坚强及可靠运行。随着各类传感器和智能设备数量的不断增加,设备获取与传输的各类数据也在发生着指数级的增长,这些数据不仅包括智能电表收集的用电量,还包括各类传感器按照固定频率采集的温度、天气、湿度、地理信息和风速信息等。用户数据复杂程度增大。我国发输电系统的技术与国外差别不大,但在配用电特别是用户端存在较大差异,由于相适应的市场机制尚未形成,中国实施智能用电技术的条件不够成熟,难以支持智能电力分配系统和用户管理系统的有效集成。总的来说,电网用户的海量数据管理存在如下挑战:智能电表和物联网技术的快速发展,使其产生的海量数据模态千差万别,各单位数据口径不一,加工整合困难。针对海量数据,如何构建一个模块来对其进行规范表达,如何基于该模块来实现数据整合是亟需解决的问题。由于数据的采集方式多种多样,各个通信信道质量不一,不仅接收的数据质量低劣,而且对数据的管控能力也不足,从而导致利用这些低劣的数据进行挖掘分析发现的知识也是不科学的,不能做出精准的决策。这已经在全球范围内造成了恶劣后果,严重困扰着信息社会。数据类型复杂,传统的关系型数据库和文件存储格式已不能满足海量数据快速增长的需求。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了,包括:构建电网用户数据管理系统,将各个电网子系统采集到的数据进行整合,并利用并行计算框架对电网用户的数据进行挖掘和分析;基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测。优选地,所述电网用户数据管理系统的架构分为应用层、数据分析计算层、数据管理层,利用Hadoop构建电网用户数据管理系统,在平台上采用HDFS、HBase建立数据存储系统,在平台上构建MapReduce并行计算框架和Storm内存并行计算框架作为海量数据计算分析系统,对电网用户的海量数据进行分析;所述数据管理层对数据进行采集和集成;所述数据采集包括从智能电表、数据采集监控系统和各种传感器中采集的数据,对这些数据的集成包括将数据迀移至集群服务器进行管理;在数据的集成过程中,采用数据转移工具对数据进行抽取和整合工作,将各个独立的系统产生的数据及历史数据利用数据转移工具抽取整合到HBase中,并使用java持久化工具对列存储数据库进行操作,将基于分布式计算的应用产生的在线数据写入到HBase中;所述数据分析计算层用于海量数据的存储和计算分析;利用HBase存储电力负载数据和相关数据;利用并行计算模块MapReduce对海量数据进行并行批量计算分析,而对数据密集型的迭代计算采用基于内存的并行计算模块Storm,将业务所需数据读入内存,需要数据时直接从内存中查询。优选地,所述基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测,进一步包括:利用3个MapReduce业务类执行算法的训练过程,每一个MapReduce的输出作为其后一个的输入,训练结束后得到的决策模块保存在Hadoop的分布式集群中,其分为三部分:生成数据字典;生成判定树;形成判定树集合;其中所述生成数据字典包括对进行训练的样本数据进行描述,产生一个文件来描述样本中条件属性和决策属性,记录条件属性值的类型和决策属性的位置,以及要创建的模块是进行分类还是回归运算,这个过程由第一个MapReduce完成,每个Map过程读取实验数据的一部分,记录数据的属性类型和负载值或者类型标识;产生的描述文件以键/值的形式存储在Hadoop的文件系统HDFS中;其中所述生成判定树过程包括以下并行过程:I)对原数据集进行随机有放回的抽取K个与原样本数据集大小一样的样本数据TSlj2, 一个样本数据对应一个判定树的训练集,每个样本数据都不同,并且与原数据集大小一样;2)根据样本数据中属性的个数M确定每个节点随机选择的属性个数m,其中m〈〈M,分类模块中m为M的平方根,回归模块中m为M的1/3 ;计算m个属性中每个属性的信息量,选择最佳属性进行分支;3)递归进行节点的建立,生成判定树;1(个判定树的生成是并行产生的,一个Map生成一个判定树,这个过程由第二个MapReduce过程完成;所述形成判定树集合包括把每个判定树分类器组合起来,每个判定树产生一个结果,如果判定树集合用来分类其最终结果为投票选取,当它用来回归预测时,K个树给出K个值,最终值为各树的平均值,此过程由第三个MapReduce完成。优选地,在所述HBase系统的部署架构中,将调度中心作为整个分布式实时数据库的管理者,存储元数据信息,包括各节点分工、节点状态、数据分区方式、数据块位置、任务调度、安全管理的关键信息;所述调度中心相互间通过同步机制保持元数据的一致性,数据分析计算层逻辑上是对等的,部署相同进程完成同样的逻辑运算,数据分析计算层采用基于事务的冗余备份机制,电网用户数据管理系统采用HDFS作为底层存储的分布式文件系统,构建面向电网海量数据的时序控制组件来存储电网业务中的时序数据,由时序控制组件来构建时序数据模块,按照特有模块统一接收存储采集的时序数据,并对外提供统一的查询接口;在存储方式上,采用键-值的形式来存储数据,即面向列进行存储,以列族为基本的存储和权限控制单元,对于为空的列,在实际存储中不占用实际空间,使用稀疏表的设计方式,在数据架构部署上放弃了传统的C/S多客户端、单服务器的模式;采用分布式的多服务器的集群模式,所有数据根据复制因子分散存储于集群中的多台计算机上;时序控制组件底层依赖于列存储数据库,在具体处理时序数据时抽象为对HBase数据库的读、写、增加、删除、修改的基本操作,软件最上层为时序控制组件的客户端及第三方应用客户端,所有客户端通过Java的API进行具体操作,所有API通过类型解析模块解析分解为一个数据库操作或多个数据库操作的序列集合,这些数据库操作集合通过控制组件内部的RPC调用,最后统一使用异步的HBase操作API完成数据操作。本专利技术相比现有技术,具有以下优点:本专利技术提出了,将电网用户各系统的数据进行融合和集成,并将传统数据计算方法迀移到分布式平台中,满足海量数据的运算要求。【具体实施方式】下文是对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种电网用户海量数据处理方法。利用Hadoop集群构建海量数据的基础管理系统,将各电网子系统采集到的数据整合成海量数据存储,并利用并行计算框架对电网用户的海量数据进行快速挖掘分析。以电力负载预测应用为例,将传统的负载预测迀移到分布式计算平台,利用基于判定树的负载预测算法实现并行负载预测。本专利技术结合电网用户海量数据分析的实际需要,构建以分析计算为主的电网用户数据管理系统,其基本架构分为应用层、数据分析计算层、数据管理层。...

【技术保护点】
一种电网海量数据管理方法,其特征在于,包括:构建电网用户数据管理系统,将各个电网子系统采集到的数据进行整合,并利用并行计算框架对电网用户的数据进行挖掘和分析;基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘志刚魏晓光陈剑飞刘小宝戴昭
申请(专利权)人:国家电网公司国网山东省电力公司济南供电公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1