一种针对电力能源大数据的管控平台制造技术

技术编号:33024158 阅读:59 留言:0更新日期:2022-04-15 08:57
本发明专利技术公开了一种针对电力能源大数据的管控平台,包括,数据导入模块:用于从外部数据源导入数据;数据存储模块:用于存储上述数据;数据计算模块:用于对多样化的大数据提供实时、离线计算框架;数据分析模块:用于对多样化的大数据进行加工,提供业务决策依据;平台管理模块:用于将底层工具、组件、算法能力通过可视化、接口形式为业务系统大数据应用提供服务能力;数据安全模块:用于保证数据采集、存储、分析、应用所有环节的安全性;数据监管模块用于全面监测大数据处理全过程中各参与方的整体状态,支持大数据应用功能的配置化定义。本发明专利技术能提高数据挖掘算法对海量数据的处理能力,实现企业数据资源的最大利用。实现企业数据资源的最大利用。

【技术实现步骤摘要】
一种针对电力能源大数据的管控平台


[0001]本专利技术涉及电力能源
,尤其是一种针对电力能源大数据的管控平台。

技术介绍

[0002]随着我国经济社会的发展和环境资源压力越来越大,节能减排形势严峻,电网企业作为国家重要能源企业,近年来,自动化与信息化水平不断提升企业经营管理与智能电网产生的数据,规模非常巨大,形式十分复杂。目前,电网企业己建设数据中心,主要存储数据包括结构化数据、非结构化数据、海量数据(准实时数据)、地理信息数据以及调度生产数据等。然而,智能电网与企业经营管理的发展己不仅仅满足于数据的存储和简单的服务,需进一步对数据开展实时采集接入、在线计算处理和关联分析挖掘,充分挖掘数据资产价值。

技术实现思路

[0003]本专利技术要解决的技术问题是提供一种针对电力能源大数据的管控平台。
[0004]为解决上述技术问题,本专利技术所采取的技术专利技术如下。
[0005]一种针对电力能源大数据的管控平台,包括,数据导入模块:用于从外部数据源导入结构化数据、半结构化数椐、非结构化数据以及实时数椐;数据存储模块:用于存储上述数据;数据计算模块:用于对多样化的大数据提供实时、离线计算框架,允许对分布式存储的数据文件或内存数据进行查询和计算;数据分析模块:用于对多样化的大数据进行加工、处理、分析、挖掘,产生新的业务价值,发现业务发展方向,提供业务决策依据;平台管理模块:用于将底层工具、组件、算法能力通过可视化、接口形式为业务系统大数据应用提供服务能力;数据安全模块:用于保证数据采集、存储、分析、应用所有环节的安全性;数据监管模块用于全面监测大数据处理全过程中各参与方的整体状态,支持大数据应用功能的配置化定义。
[0006]作为本专利技术的一种优选技术专利技术,所述数据导入模块包括数据采集模块,所述数据采集模块包括生产者,消费者以及存储节点,其由分布式消息队列Kafka负责实时数据的采集,将消息生产的前端和后端服务架构解耦,生产者为数据中心数据、设备采集数据以及系统管理数据,消费者,即消费者的并发单位,利用分布式集群来处理大量数据并发的消息,消费者根据消息键值各自独立处理消息存储节点,Kafka可短时存储消息,形成短暂日志,在之后节点发生故障时,确保消息可以被重新订阅,满足系统的可靠性和容错性,避免消息丢失;数据流向模块用于Kafka、Flume消息日志将流数据进行处理接入流计算处理平台,并进一步统计分析计算结果集,实时数据在线处理平台将实时数据直接接入,高并发读写请求由在线数据处理平台响应,核心平台进行抽取、同步、上传操作,将批数据导入存储分析。
[0007]作为本专利技术的一种优选技术专利技术,所述数据存储模块包括关系数据存储模块、分布式文件系统模块和分布式数据库模块,所述关系数据存储模块作为元数据、主数据的存储以及作为部分管理、运维类应用的底层数据库,与原有务系统数据进行交换和联合查询,
所述分布式文件系统模块基于GFS文件系统设计的分布式文件系统组件,利用主节点对其他节点服务中文件进行统一控制操作,并将统一文件块复制到其他两个节点中进行备份,以防止某一节点出现问题导致数据失效,所述分布式数据库模块解决关系型数据库在处理海量数据时的理论和实现上的局限性,实现海量数据的OLPT类秒级检索查询和OLAP类高速数据分析应用需求。
[0008]作为本专利技术的一种优选技术专利技术,所述数据计算模块包括:统一资源与权限管控对于各个部门以及下级单位的不同应用需求,通过统一的集群管理,结合YARN资源调度框架,进行计算资源隔离与共享,实现业务以及应用的多租户,批处理计算用于大规模数据集的并行运算当海量数据存储在HDFS上后,利用HDFS分block存储的特性,默认将每个block的数据作为一个计算任务并行执行,将Map的数据根据Key重新洗牌后,进行Reduce计算,最终得到计算结果;流计算引擎,与Kafka结合使用,适用于流式准实时计算场景;内存计算框架,内存计算框架采用的是Spark Shark;查询计算基于Hbasae的OLTP&OLAP能力,提供对索引及SQL的支持。
[0009]作为本专利技术的一种优选技术专利技术,所述数据分析模块包括模型及算法库,所述模型算法库包括统计分析模块:描述性统计:针对各业务系统中的结构化数据,提供总数、平均数、中位数、百分位数方差、标准差、极差、偏度、峰度基础统计方法;推断性统计:对其所反映的问题进行分析、解释和做出推断性结论;多维分析模块:多维分析模型针对分布式文件系统、分布式列数据库中存储的结构化数据,结合多维分析的需求,提供多维分析模型定义功能,包括维度定义、层次定义、度量定义;多维分析引擎针对大数据平台分布式计算模式,提供多维分析引擎,满足钻取、切片和切块、以及旋转多维操作需求,挖掘算法库:通用数据挖掘算法库针对各业务系统中的结构化数据,提供预测性挖掘算法和描述性挖掘算法两种通用的数据分析挖掘算法,包括分类分析、演化分析、异类分析、聚类分祈关联分析,专用分析算法库针对各业务系统中存在的大量文本、图片、视频非结构化数据,提供专用数据分析挖掘算法,如视频分析、图像分析、语音分析、文本分析算法自定义算法插件按照特定数据分析需求,大数据平台明确统一的算法开发规范及接口,定义算法的输入格式、单机或者分布式算法处理形式、算法结果展示,挖掘算法工具:分析建模支持分布式挖掘算法,使用模型设计器建立数据分析模型;模型运行提供大数据分布式计算能力,进行数据的分析、挖掘;模型发布进行分析模型的发布,对外提供数据分析服务;统计算法基于内存计算架构Spark,提供多种基本的统计分析算法支持。
[0010]作为本专利技术的一种优选技术专利技术,所述平台管理模块包括平台存储服务接口、平台计算服务接口、平台分析服务接口和平台展现服务接口,所述平台存储服务接口包括关系型数据存储、非关系型数椐存储、分布式文件存储的数据访问接口及存储管理接口;所述数据计算服务对外统一提供流计算服务接口、批量计算服务接口、内存计算服务接口和查询计算服务接口;所述平台分析服务接口对外统一提供数据预处理接口、数据分析接口和模型算法接口;所述平台展示服务接口统一对外提供可视化组件库接口及可视化设计器接口。
[0011]作为本专利技术的一种优选技术专利技术,所述数据安全模块包括用户身份认证、授权许可和输入验证,以保障企业在大数据平台中核心敏感数据或商业秘密在上述数据处理的各环节不被泄漏。
[0012]作为本专利技术的一种优选技术专利技术,所述数据监管模块包括数据模型管理模块、数据质量管理模块、数据全过程监测模块和数据运维管理模块。
[0013]作为本专利技术的一种优选技术专利技术,所述数据模型管理模块包括元数据管理:包括管理元数据的概念、业务项、语义属性进行管理,包括元数据的新增、删除修改、查询、版本管理等功能;主数据管理:提供主数据对象相关生命周期活动的支撑功能,包括主数据的创建、查询更新、冻结、版本变更管理功能;数据模型管理:提供对分布式文件系统、非关系型数据库、关系数据库进行数据建模的能力并对数据模型进行管理;所述数据质量管理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对电力能源大数据的管控平台,其特征在于:包括,数据导入模块:用于从外部数据源导入结构化数据、半结构化数椐、非结构化数据以及实时数椐;数据存储模块:用于存储上述数据;数据计算模块:用于对多样化的大数据提供实时、离线计算框架,允许对分布式存储的数据文件或内存数据进行查询和计算;数据分析模块:用于对多样化的大数据进行加工、处理、分析、挖掘,产生新的业务价值,发现业务发展方向,提供业务决策依据;平台管理模块:用于将底层工具、组件、算法能力通过可视化、接口形式为业务系统大数据应用提供服务能力;数据安全模块:用于保证数据采集、存储、分析、应用所有环节的安全性;数据监管模块用于全面监测大数据处理全过程中各参与方的整体状态,支持大数据应用功能的配置化定义。2.根据权利要求1所述的一种针对电力能源大数据的管控平台,其特征在于:所述数据导入模块包括数据采集模块和数据流向模块,所述数据采集模块包括生产者,消费者以及存储节点,其由分布式消息队列Kafka负责实时数据的采集,将消息生产的前端和后端服务架构解耦,生产者为数据中心数据、设备采集数据以及系统管理数据,消费者,即消费者的并发单位,利用分布式集群来处理大量数据并发的消息,消费者根据消息键值各自独立处理消息存储节点,Kafka可短时存储消息,形成短暂日志,在之后节点发生故障时,确保消息可以被重新订阅,满足系统的可靠性和容错性,避免消息丢失;数据流向模块用于Kafka、Flume消息日志将流数据进行处理接入流计算处理平台,并进一步统计分析计算结果集,实时数据在线处理平台将实时数据直接接入,高并发读写请求由在线数据处理平台响应,核心平台进行抽取、同步、上传操作,将批数据导入存储分析。3.根据权利要求2所述的一种针对电力能源大数据的管控平台,其特征在于:所述数据存储模块包括关系数据存储模块、分布式文件系统模块和分布式数据库模块,所述关系数据存储模块作为元数据、主数据的存储以及作为部分管理、运维类应用的底层数据库,与原有务系统数据进行交换和联合查询,所述分布式文件系统模块基于GFS文件系统设计的分布式文件系统组件,利用主节点对其他节点服务中文件进行统一控制操作,并将统一文件块复制到其他两个节点中进行备份,以防止某一节点出现问题导致数据失效,所述分布式数据库模块解决关系型数据库在处理海量数据时的理论和实现上的局限性,实现海量数据的OLPT类秒级检索查询和OLAP类高速数据分析应用需求。4.根据权利要求3所述的一种针对电力能源大数据的管控平台,其特征在于:所述数据计算模块包括:统一资源与权限管控对于各个部门以及下级单位的不同应用需求,通过统一的集群管理,结合YARN资源调度框架,进行计算资源隔离与共享,实现业务以及应用的多租户,批处理计算用于大规模数据集的并行运算当海量数据存储在HDFS上后,利用HDFS分block存储的特性,默认将每个block的数据作为一个计算任务并行执行,将Map的数据根据Key重新洗牌后,进行Reduce计算,最终得到计算结果;流计算引擎,与Kafka结合使用,适用于流式准实时计算场景;内存计算框架,内存计算框架采用的是Spark Shark;查询计算基于Hbasae的OLTP&OLAP能力,提供对索引及SQL的支持。5.根据权利要求4所述的一种针对电力能源大数据的管控平台,其特征在于:所述数据分析模块包括模型及算法库,所述模型算法库包括统计分析模块:描述性统计:针对各业务系统中的结构化数据,提供总数、平均数、中位数、百分位数方差、标准差、极差、偏度、峰度基础统计方法;推断性统计:对其所反映的问题进行分析、解释和做出推断性结论;多维分
析模块:多维分析模型针对分布式文件系统、分布式列数据库中存储的...

【专利技术属性】
技术研发人员:杨小龙马超李静高琳王献春杨会峰辛锐孙辰军王静刘宏张冬亚姚陶刘甲林何甜栾士江袁伟博
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1