一种电力大数据质量实时监控方法技术

技术编号:16970710 阅读:45 留言:0更新日期:2018-01-07 07:13
本发明专利技术公开了一种电力大数据质量实时监控方法,其包括企业应用数据流实时输入、将数据流分批、采用DStreams进行流式计算、利用Spark批处理执行转换、Spark框架任务调度和内存管理和输出批处理结果。本发明专利技术利用基于流式计算技术的电力大数据质量实时监控方法,围绕电力企业数据生命周期,实现对供电企业数据的全过程质量管理,提升数据质量,保障数据的准确、及时、有效和可信,为数据的集成和挖掘应用提供有力保障。

【技术实现步骤摘要】
一种电力大数据质量实时监控方法
本专利技术涉及数据质量监控领域,尤其是一种电力大数据质量实时监控方法。
技术介绍
大数据处理的关键就是解决数据质量问题,规避数据错误、保障数据质量才能真正让企业从大数据应用中获得利益,保证数据质量是大数据为企业带来价值的先决条件。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。近几年,电力行业信息化也得到了长足的发展,从初始电力生产自动化到80年代以财务电算化为代表的管理信息化建设,再到近年大规模的企业信息化建设,特别伴随着下一代智能化电网的全面建设,以物联网和云计算为代表的新一代IT技术在电力行业中的广泛应用,电力数据资源开始急剧增长并形成了一定的规模。随着供电企业信息化持续建设与深化应用,供电企业各项业务已与信息化初步融合,信息系统内业务数据的数量和种类的逐步增多,数据共享需求迫切。而数据质量和数据共享利用水平不高,一是数据对分析决策支持度低,同一数据存在多个数多源、统计口径不一致;二是数据对运营管理的支持度有待提高,数据质量参差不齐,部分数据无业务系统支持,缺乏统一的规范、标准和明确的数据问责;三是数据质量管控滞后,管控工作片面化,没有形成一个完整性的数据质量管控体系和全面有效的数据质量保障机制,制约数据价值的深度挖掘。
技术实现思路
本专利技术要解决的技术问题是提供一种电力大数据质量实时监控方法,其实现对供电企业数据的全过程质量管理,提升数据质量,保障数据的准确、及时、有效和可信,为数据的集成和挖掘应用提供有力保障。为了解决上述技术问题,本专利技术的一种电力大数据质量实时监控方法,包括以下步骤:1)数据流实时输入,定义计算拓扑,定义一个算法与框架的交互方式,定义好算法的输入结构和算法的输出结构,然后拓扑能够组合不同的算法来为用户提供一个统一的服务;2)将数据流分批,通过拓扑的加载与启动,对于每个节点来说,启动时需要加载拓扑,节点需要其他的信息,比如上游的数据来源与下游的数据输出;下游的数据输出的拓扑信息可以存储到Tuple中,拓扑本身是无状态的;拓扑的在线更新,实现不停止服务的情况下进行更新;3)采用DStreams进行流式计算,数据流通过将用户定义的一系列的RDD转化成DAG图;4)利用Spark批处理执行转换,将DAG转化成一个TaskSet任务集,而这个TaskSet就可以向集群申请计算资源,集群把这个TaskSet部署到Worker中运算;首先定义RDD,在RDD上做相应的转化动作,最后系统将这一系列的RDD投放到Spark的集群中运行;5)Spark框架任务调度和内存管理,接收步骤2)和步骤4)两种方式,完成计算;6)输出批处理结果。本专利技术的有益效果是:面向电力大数据的元数据模型和数据质量监控规则,通过电力大数据质量实时监控方法,基于Streaming的流式数据质量技术,实现数据传输过程不落地进行实时数据质量监控的方法及应用策略,在数据传输过程中,结合内存数据库,通过规则库在不同节点的使用分析,达到实时监控的功能;利用实时大数据捕获及同步技术,在同步主通道开发旁路数据通道,支持数据质量实时监控的需求。利用基于流式计算技术的电力大数据质量实时监控方法,围绕电力企业数据生命周期,实现对供电企业数据的全过程质量管理,提升数据质量,保障数据的准确、及时、有效和可信,为数据的集成和挖掘应用提供有力保障。附图说明图1为本专利技术一种电力大数据质量实时监控方法的示意图。具体实施方式下面结合附图和具体实施方式对本专利技术作进一步详细的说明:参见图1,本专利技术的一种电力大数据质量实时监控方法处理流程,包括企业应用数据流实时输入1、将数据流分批2、采用DStreams进行流式计算3、利用Spark批处理执行转换4、Spark框架任务调度和内存管理5和输出批处理结果6。数据流实时输入1,定义计算拓扑,要方便算法开发者开发算法与策略。定义一个算法与框架的交互方式,定义好算法的输入结构和算法的输出结构。然后拓扑能够组合不同的算法来为用户提供一个统一的服务。计算平台最大的意义在于算法开发者不需要了解程序的运行,并发的处理,高可用性的实现,只需要提供算法与计算逻辑即可以快速可靠的处理海量的数据。将数据流分批2,通过拓扑的加载与启动,对于每个节点来说,启动时需要加载拓扑,节点需要其他的信息,比如上游的数据来源与下游的数据输出。下游的数据输出的拓扑信息可以存储到Tuple中,拓扑本身是无状态的。拓扑的在线更新,实现不停止服务的情况下进行更新。由于实现了架构与算法的剥离,因此本算法可以以一个单独的个体进行更新。具体操作如下,Master将算法实体保存到一个Worker可见的地方,比如HDFS或者是NFS或者ZK,然后通过心跳发送命令到拓扑,拓扑会暂时停止处理数据而加载新的算法实体,加载之后重新开始处理数据。数据一般都会放到buffer中,这个buffer可能是一个queue。但是从外界看来,拓扑实际上是一直处于服务状态的。本方法的流式电力大数据质量实时监控系统最重要的抽象通过Streaming实现,采用DStrems进行spark流式计算3,数据流通过将用户定义的一系列的RDD转化成DAG图,然后DAG调度利用Spark批处理执行转换4,把这个DAG转化成一个TaskSet任务集,而这个TaskSet就可以向集群申请计算资源,集群把这个TaskSet部署到Worker中运算。首先定义RDD,在RDD上做相应的转化动作,最后系统将这一系列的RDD投放到Spark的集群中运行。spark5包括任务调度和内存管理,接收将数据流分批2和利用Spark批处理执行转换4两种方式,完成计算,最后获得批处理结果6。流式计算的特点就是计算一直在进行,流是源源不断的流入到系统中的,但是对于每个数据单位来说它的处理结果是确定的,这个结果将返回调用者或者进行持久化。综上所述,本专利技术的内容并不局限在上述的实施例中,本领域的技术人员可以在本专利技术的技术指导思想之内提出其他的实施例,但这些实施例都包括在本专利技术的范围之内。本文档来自技高网...
一种电力大数据质量实时监控方法

【技术保护点】
一种电力大数据质量实时监控方法,其特征在于,包括以下步骤:1)数据流实时输入,定义计算拓扑,定义一个算法与框架的交互方式,定义好算法的输入结构和算法的输出结构,然后拓扑能够组合不同的算法来为用户提供一个统一的服务;2)将数据流分批,通过拓扑的加载与启动,对于每个节点来说,启动时需要加载拓扑,节点需要其他的信息,比如上游的数据来源与下游的数据输出;下游的数据输出的拓扑信息可以存储到Tuple中,拓扑本身是无状态的;拓扑的在线更新,实现不停止服务的情况下进行更新;3)采用DStreams进行流式计算,数据流通过将用户定义的一系列的RDD转化成DAG图;4)利用Spark批处理执行转换,将DAG转化成一个TaskSet任务集,而这个TaskSet就可以向集群申请计算资源,集群把这个TaskSet部署到Worker中运算;首先定义RDD,在RDD上做相应的转化动作,最后系统将这一系列的RDD投放到Spark的集群中运行;5)Spark框架任务调度和内存管理,接收步骤2)和步骤4)两种方式,完成计算;6)输出批处理结果。

【技术特征摘要】
1.一种电力大数据质量实时监控方法,其特征在于,包括以下步骤:1)数据流实时输入,定义计算拓扑,定义一个算法与框架的交互方式,定义好算法的输入结构和算法的输出结构,然后拓扑能够组合不同的算法来为用户提供一个统一的服务;2)将数据流分批,通过拓扑的加载与启动,对于每个节点来说,启动时需要加载拓扑,节点需要其他的信息,比如上游的数据来源与下游的数据输出;下游的数据输出的拓扑信息可以存储到Tuple中,拓扑本身是无状态的;拓扑的在线更新,实现不停止服务的情况下进行更...

【专利技术属性】
技术研发人员:魏智博常月廷曹筱欧杨庆双刘金华田娜李宝发杨宇全杨滨
申请(专利权)人:国网天津市电力公司国家电网公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1