一种大规模电力设备监测报警数据实时处理方法及系统技术方案

技术编号:17815890 阅读:119 留言:0更新日期:2018-04-28 07:21
一种大规模电力设备监测报警数据实时处理方法及系统,其包括数据接收与分发平台、SparkStreaming实时数据处理平台、Spark内存计算平台和HBase、Hadoop分布式文件系统,其对监测数据的处理过程包括:1)负责报警数据接收与分发的数据收集服务器集群,2)实时数据处理平台内的异常检测模块基于SparkStreaming实时数据处理技术实现;3)特征提取模块基于SparkStreaming实时数据处理技术实现;4)模式识别模块基于SparkStreaming实时数据处理技术实现;5)机器学习模块基于Spark大数据技术实现。其实现了应对大规模高并发的报警数据和持续远方监测的流式数据的快速收集和处理的方法,可以用于构建新一代输变电设备远程监测系统或大规模新能源电站群监控系统的建设。

【技术实现步骤摘要】
一种大规模电力设备监测报警数据实时处理方法及系统
本专利技术涉及电力设备监测领域,尤指种一种大规模电力设备监测报警数据实时处理方法及系统。
技术介绍
随着电网规模增长迅速,电网结构越来越复杂,信息化与电力生产深度融合,智能化电力一次设备和常规电力设备的在线监测都得到了较大发展并成为趋势,监测数据变得日益庞大,设备中进行获取与传输的监测数据成几何级增长。电力设备在线监测系统在数据存储、查询和数据分析等方面面临巨大的技术挑战。如何对电力设备监测大数据进行高效、可靠地存储,并快速访问和分析,是当前电力信息处理领域和大数据处理领域重要的研究课题。当前,电力设备监测大数据的特点和所面临的技术挑战包括:(1)电力设备状态监测数据的规模非常巨大,从TB级别往PB级别发展。在线监测系统的计算处理速度及响应时间受限于硬件性能,在发生电网故障情况下,短时间内大量数据若得不到及时处理,可能面临信息延迟甚至丢失的风险。(2)处理速度快。对海量的输变电设备监测历史数据进行离线分析处理的过程包括数据清洗、格式转换、信号去噪、特征提取、模式识别等,任何一个环节处理速度慢,都会成为应用系统的性能瓶颈。因而数据处理平台要能够提供并行化、高吞吐量、批处理的能力。而且除历史数据的离线分析处理外,其他的一些应用场景,包括:AdHoc数据分析查询、监测大数据流式处理]等,都对系统的数据处理速度提出了挑战。(3)数据存储与处理平台的架构。如何根据输变电设备监测大数据的特点和应用需求,选择、组合、合理利用现有大数据技术(Hadoop、Spark、多核计算、云计算等)构建高可靠性及高可用性的分布式存储与计算平台,并利用并行计算技术(MapReduce、MR2、MPI等),满足海量历史数据查询分析、数据挖掘、在线服务等各类计算任务性能需求,助力电力大数据价值释放极具挑战性。由于常规的数据存储与管理方法大都构建在大型服务器、磁盘阵列(存储硬件)以及关系数据库系统(数据管理软件)上,系统扩展性差、访问性能低下、成本高,面对上述挑战,其在存储和处理监测大数据时遇到了极大的困难。因而专利技术人考虑,应对这些挑战,需要综合运用包括批量计算、在线计算和流式计算等场景的大数据处理工具来应对。本专利技术综合考虑上述挑战,设计实现了一种大规模电力设备监测报警数据实时处理方法。
技术实现思路
为解决上述技术问题,达到实现了一种大规模电力设备监测报警数据实时处理的目的。本专利技术提供了一种大规模电力设备监测报警数据实时处理方法,其包括数据接收与分发平台、SparkStreaming实时数据处理平台、Spark内存计算平台和HBase、Hadoop分布式文件系统,其对监测数据的处理过程包括:1)负责报警数据接收与分发的数据收集服务器集群,是采用高可扩展性的分布式集群,使用分布式Kafka软件实现订阅式的消息接收与发布,设置有冗余的多条优先级队列;2)实时数据处理平台内的异常检测模块基于SparkStreaming实时数据处理技术实现,接收来自Kafka实时转发的监测数据流,以内存计算的方式,使用SparkStreaming阈值处理程序对监测数据值进行越线判别,对未越线数据,推送至HBase存储;对于越线数据,发送至特征提取模块,执行步骤3)的数据处理;3)特征提取模块基于SparkStreaming实时数据处理技术实现,接收来自Kafka实时转发的报警数据以及来自异常检测模块转发的越线数据,使用预定的特征提取算法和预处理方法,计算数据特征,用于步骤4)的异常数据模式识别;4)模式识别模块基于SparkStreaming实时数据处理技术实现,接收来自特征提取模块的待测特征样本,利用来自步骤5)的机器学习算法模型,对特征样本进行实时的模式识别;将分类结果数据存入HBase,更新样本库,当新增样本数量超过阈值x,触发全量的数据训练过程;5)机器学习模块基于Spark大数据技术实现;由用户为机器学习任务配置调度策略,使机器学习任务按照固定周期执行;或者,由SparkStreaming模式识别模块来触发新的训练任务,训练接收后将产生新的模型,并将新模型发送至模式识别模块进行模型更新。较佳的,在步骤1)中,所述冗余度默认设置为2。较佳的,在步骤2)中,同时选择对HBase存储数据进行数据可视化处理。较佳的,在步骤1)中,当报警事件或监测数据进入Kafka时,对处于不同级别的报警和监测数据分别发送至与之级别匹配的消息队列,根据冗余度R,将消息发送至R条消息队列;对高优先级的优先向下转发;数据按照不同的类别分发到SparkStreaming实时数据处理平台不同的计算节点进行分类处理;实时监测数据(流式数据)分发到异常检测模块,报警数据分发至特征提取模块。较佳的,数据收集服务器集群与Storm云平台之间、以及Storm和Spark云平台内部的节点服务器之间采用千兆或万兆以太网交换机连接。本专利技术还提供了一种大规模电力设备监测报警数据实时处理系统,其包括:数据接收与分发平台、SparkStreaming实时数据处理平台、Spark内存计算平台和HBase、Hadoop分布式文件系统;其中包含:1)负责报警数据接收与分发的数据接收与分发平台,即数据收集服务器集群是采用高可扩展性的分布式集群,使用分布式Kafka软件实现订阅式的消息接收与发布;该分布式集群设置有冗余的多条优先级队列,且Kafka能将报警事件或监测数据按照不同级别的报警和监测数据分别发送至与之级别匹配的消息队列,即根据冗余度R,将消息发送至R条消息队列;而且,能对高优先级的优先向下转发;而数据按照不同的类别分发到SparkStreaming实时数据处理平台不同的计算节点进行分类处理;其中,实时监测数据(流式数据)分发到异常检测模块,报警数据分发至特征提取模块;而SparkStreaming实时数据处理平台包含异常检测模块、特征提取模块、模式识别模块;2)异常检测模块,是基于SparkStreaming实时数据处理技术实现,接收来自Kafka实时转发的监测数据流,以内存计算的方式,使用SparkStreaming阈值处理程序对监测数据值进行越线判别。对未越线数据,推送至HBase存储,同时可以选择对HBase存储数据进行数据可视化处理;对于越线数据,发送至特征提取模块,由特征提取模块进行数据处理;3)特征提取模块,是基于SparkStreaming实时数据处理技术实现,接收来自Kafka实时转发的报警数据以及来自异常检测模块转发的越线数据,使用预定的特征提取算法和预处理方法计算数据特征;4)模式识别模块,是基于SparkStreaming实时数据处理技术实现,接收来自特征提取模块的待测特征样本,利用来自5)机器学习模块中的机器学习算法模型,对特征样本进行实时的模式识别;将分类结果数据存入HBase,更新样本库;当新增样本数量超过阈值x,触发全量的数据训练过程;5)机器学习模块,位于Spark内存计算平台,是基于Spark大数据技术实现,其任务来自用户为机器学习任务配置的调度策略,使机器学习任务可以按照固定周期执行;或者,是由SparkStreaming模式识别模块来触发新的训练任务,训练接收后将产生新的模型,并将新模型发送至模式识别模块进行模本文档来自技高网
...
一种大规模电力设备监测报警数据实时处理方法及系统

【技术保护点】
一种大规模电力设备监测报警数据实时处理方法,其包括数据接收与分发平台、SparkStreaming实时数据处理平台、Spark内存计算平台和HBase、Hadoop分布式文件系统,其特征在于,对监测数据的处理过程包括:1)负责报警数据接收与分发的数据收集服务器集群,是采用高可扩展性的分布式集群,使用分布式Kafka软件实现订阅式的消息接收与发布,设置有冗余的多条优先级队列;2)实时数据处理平台内的异常检测模块基于SparkStreaming实时数据处理技术实现,接收来自Kafka实时转发的监测数据流,以内存计算的方式,使用SparkStreaming阈值处理程序对监测数据值进行越线判别,对未越线数据,推送至HBase存储;对于越线数据,发送至特征提取模块,执行步骤3)的数据处理;3)特征提取模块基于SparkStreaming实时数据处理技术实现,接收来自Kafka实时转发的报警数据以及来自异常检测模块转发的越线数据,使用预定的特征提取算法和预处理方法,计算数据特征,用于步骤4)的异常数据模式识别;4)模式识别模块基于SparkStreaming实时数据处理技术实现,接收来自特征提取模块的待测特征样本,利用来自步骤5)的机器学习算法模型,对特征样本进行实时的模式识别;将分类结果数据存入HBase,更新样本库,当新增样本数量超过阈值x,触发全量的数据训练过程;5)机器学习模块基于Spark大数据技术实现;由用户为机器学习任务配置调度策略,使机器学习任务按照固定周期执行;或者,由SparkStreaming模式识别模块来触发新的训练任务,训练接收后将产生新的模型,并将新模型发送至模式识别模块进行模型更新。...

【技术特征摘要】
1.一种大规模电力设备监测报警数据实时处理方法,其包括数据接收与分发平台、SparkStreaming实时数据处理平台、Spark内存计算平台和HBase、Hadoop分布式文件系统,其特征在于,对监测数据的处理过程包括:1)负责报警数据接收与分发的数据收集服务器集群,是采用高可扩展性的分布式集群,使用分布式Kafka软件实现订阅式的消息接收与发布,设置有冗余的多条优先级队列;2)实时数据处理平台内的异常检测模块基于SparkStreaming实时数据处理技术实现,接收来自Kafka实时转发的监测数据流,以内存计算的方式,使用SparkStreaming阈值处理程序对监测数据值进行越线判别,对未越线数据,推送至HBase存储;对于越线数据,发送至特征提取模块,执行步骤3)的数据处理;3)特征提取模块基于SparkStreaming实时数据处理技术实现,接收来自Kafka实时转发的报警数据以及来自异常检测模块转发的越线数据,使用预定的特征提取算法和预处理方法,计算数据特征,用于步骤4)的异常数据模式识别;4)模式识别模块基于SparkStreaming实时数据处理技术实现,接收来自特征提取模块的待测特征样本,利用来自步骤5)的机器学习算法模型,对特征样本进行实时的模式识别;将分类结果数据存入HBase,更新样本库,当新增样本数量超过阈值x,触发全量的数据训练过程;5)机器学习模块基于Spark大数据技术实现;由用户为机器学习任务配置调度策略,使机器学习任务按照固定周期执行;或者,由SparkStreaming模式识别模块来触发新的训练任务,训练接收后将产生新的模型,并将新模型发送至模式识别模块进行模型更新。2.根据权利要求1所述的一种大规模电力设备监测报警数据实时处理方法,其特征在于,在步骤1)中,所述冗余度默认设置为2。3.根据权利要求1所述的一种大规模电力设备监测报警数据实时处理方法,其特征在于,在步骤2)中,同时选择对HBase存储数据进行数据可视化处理。4.根据权利要求1所述的一种大规模电力设备监测报警数据实时处理方法,其特征在于,在步骤1)中,当报警事件或监测数据进入Kafka时,对处于不同级别的报警和监测数据分别发送至与之级别匹配的消息队列,根据冗余度R,将消息发送至R条消息队列;对高优先级的优先向下转发;数据按照不同的类别分发到SparkStreaming实时数据处理平台不同的计算节点进行分类处理;实时监测数据分发到异常检测模块,报警数据分发至特征提取模块。5.根据权利要求1所述的一种大规模电力设备监测报警数据实时处理方法,其特征在于,数据收集服务器集群与Storm云平台之间、以及Storm和Spark云平台内部的节点服务器之间采用千兆或万兆以太网交换机连接。6.一种大规模电力设备监测报警数据实时处理系统,其特征在于,其包括:数据接收与分发平台、SparkStreaming实时数据处理平...

【专利技术属性】
技术研发人员:宋亚奇李莉
申请(专利权)人:华北电力大学保定
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1