一种基于大数据技术的图形化的数据质量评测的装置及方法制造方法及图纸

技术编号:15691076 阅读:106 留言:0更新日期:2017-06-24 03:59
一种基于大数据技术的图形化的数据质量评测的装置及方法,包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、数据质量检核单元、数据预处理单元,其中数据采集装置分别与设备监测装置,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、数据质量检核单元,可以快速、高效、及时地处理和评估海量数据,同时保证设备安全、稳定、高效地运行。

A device and method for graphical data quality evaluation based on large data technology

A device and method of data quality evaluation of big data technology based on graphical, including data acquisition device, monitoring device, distributed memory, spark memory computing engine, calculation unit, check the quality of the data unit, data processing unit, wherein the data acquisition device and equipment monitoring device respectively, equipment connection and distributed monitoring device distributed memory, memory connected to the data preprocessing unit, data processing unit includes a spark memory computing engine, calculation unit, check the quality of the data unit, can be fast, efficient and timely treatment and evaluation of massive data, at the same time to ensure the safety of equipment, stable and efficient operation.

【技术实现步骤摘要】
一种基于大数据技术的图形化的数据质量评测的装置及方法
本专利技术涉及设备监测分析应用领域,具体涉及到一种基于大数据技术的图形化的数据质量评测的装置及方法。
技术介绍
随着智能电网的迅猛发展,电力系统已经开始迈向能源互联网和“大数据”时代,电力行业大量运行数据日益呈现体量大、类型多、价值高等特征,数据分析处理能力落后与数据快速增长之间的矛盾将更加突出;随着数据量、数据类型的不断增多,也出现数据分析性能瓶颈、缺少数据分析挖掘的高级方法、非结构化数据尚缺乏有效利用等问题,这制约了电力行业信息化从数字化向智能化的发展。能源互联网时代的大数据关键技术包括数据采集、传输、存储、质量管理、融合共享和深度挖掘等多个方面。电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大数据处理和应用解决方案。Hadoop是一个可扩展开源软件单元,能够对大数据进行可靠的分布式处理,Hadoop的单元最核心的设计包括HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS是一个分布式文件系统,具有低成本、高可靠性性、高吞吐量的特点。MapReduce是一个变成模型和软件单元,它可以极大地简化大规模数据的处理过程。Spark是一种分布式大数据处理工具,本身不提供数据存储功能,它可以运行在Hadoop的HDFS或其它的分布式文件系统之上,Spark的设计初衷就是为了解决HadoopMapReduce反复读写文件系统从而效率低下的问题,它通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,实现了In-memoryMapReduce架构,在特定应用场景下弥补MapReduce的不足。Hadoop、Spark等通用的开源技术组件在功能完整性、运行稳定性方面存在一定的局限性,而基于Hadoop衍生的一些商用大数据平台又跟电力业务场景的实际需求存在偏差,因而,深度分析研究电力行业的业务需求,异构数据源的整合、集成是企业信息化建设过程经常遇到的一个现实问题,随着数据量的急剧增加,特别是非结构化数据的增加,传统的数据仓库技术和数据抽取工具在数据质量评测方面的表现捉襟见肘,无法满足海量异构数据和杂乱低质量数据的数据处理性能要求,构建一种基于大数据技术的图形化的数据质量评测装置及方法,具有深远的意义和较强的利用价值。数据是电力企业数据中心的重要资产,获取并维护高质量数据对高效的IT和业务运营至关重要,有效收集数据、分析数据、利用数据的前提就是加强数据质量管理。面对复杂度不断增加的海量业务数据如何全面保证数据质量,是有效挖掘数据价值过程中不可回避的关键课题。数据质量保障是大数据成功的关键和基础,数据质量管理(DataQualityManagement)涉及数据的计划、获取、存储、共享、维护、应用、消亡等生命周期的各个阶段,在任何阶段可能引发数据质量问题的隐患都必须被实行识别、度量、监控、预警等一系列措施,始终保持对于数据质量问题的规避,从而保障对于大数据的有效分析和充分利用,真正让企业从大数据应用中获得利益。数据质量问题可以归结为“缺、重、散、慢、差”,这些因素严重影响了大数据分析及应用效果,也是目前电力数据质量管理面临的严峻形势。数据质量管理作为横在电力行业大数据发展面前的一座大山,是每个电力信息化服务商在发展大数据时都必须要面对和解决的问题,相关标准体系及配套工具的研发势在必行。结合大数据背景下的数据质量评价标准和管理体系,运用大数据处理技术提升质量检核工作效率,为数据治理提供决策依据。研究企业数据管理成熟度模型(DataManagementMaturity,DMM),基于发现问题、解决问题、避免问题的思路探索大数据背景下的数据质量管理体系,研发评估、防止和修复数据缺陷的数据质量管理和改进机制,面向完整性、一致性、准确性、及时性等评价维度,基于大数据处理技术配合元数据系统研发数据质量评估(DataQualityAssessment)系统。针对企业海量数据提供全面的数据质量管控,通过实施数据质量检核,发现数据质量问题、监控数据质量波动情况。基于Spark内存计算引擎构建数据质量检核单元,将数据完整性、规范性、一致性、准确性等质量校验规则转化为支持参数配置和动态组合的计算单元,配合图形化的流程组态工具实现数据预处理单元过程的灵活定制。然而构建一种基于大数据技术的图形化的数据质量评测的装置及方法,帮助企业实施数据质量检核,运用大数据技术突破海量数据质量评估的性能瓶颈,实现数据质量评测的规范化管理,有效降低数据质量管理成本。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于大数据技术的图形化的数据质量评测的装置及方法,可以快速、高效、及时地处理和评估海量数据,同时保证设备安全、稳定、高效地运行。本专利技术提供了一种基于大数据技术的图形化的数据质量评测的装置,包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、数据质量检核单元、数据预处理单元,其中数据采集装置分别与设备监测装置,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、数据质量检核单元;数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业;每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;数据质量检核单元,用于计算单元动态编排形成作业,基于Spark内存计算引擎构建数据质量检核单元,将数据完整性、规范性、一致性、准确性的质量校验规则转化为支持图形化参数配置和动态组合的计算单元;数据预处理单元,用于将设备信息异构数据,依据数据质量检核单元进行数据的完整性、规范性、一致性、准确性的预处理,同时进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;数据概化和/或规范化方式将数据转换成适用于数据挖掘的数据形式的过程,并将预处理后的数据输出至分布式存本文档来自技高网
...
一种基于大数据技术的图形化的数据质量评测的装置及方法

【技术保护点】
一种基于大数据技术的图形化的数据质量评测的装置,其特征在于:包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、数据质量检核单元、数据预处理单元,其中数据采集装置分别与设备监测装置,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、数据质量检核单元;数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业;每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;数据质量检核单元,用于计算单元动态编排形成作业,基于Spark内存计算引擎构建数据质量检核单元,将数据完整性、规范性、一致性、准确性的质量校验规则转化为支持图形化参数配置和动态组合的计算单元;数据预处理单元,用于将设备信息异构数据,依据数据质量检核单元进行数据的完整性、规范性、一致性、准确性的预处理,同时进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;数据概化和/或规范化方式将数据转换成适用于数据挖掘的数据形式的过程,并将预处理后的数据输出至分布式存储器。...

【技术特征摘要】
1.一种基于大数据技术的图形化的数据质量评测的装置,其特征在于:包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、数据质量检核单元、数据预处理单元,其中数据采集装置分别与设备监测装置,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、数据质量检核单元;数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业;每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;数据质量检核单元,用于计算单元动态编排形成作业,基于Spark内存计算引擎构建数据质量检核单元,将数据完整性、规范性、一致性、准确性的质量校验规则转化为支持图形化参数配置和动态组合的计算单元;数据预处理单元,用于将设备信息异构数据,依据数据质量检核单元进行数据的完整性、规范性、一致性、准确性的预处理,同时进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;数据概化和/或规范化方式将数据转换成适用于数据挖掘的数据形式的过程,并将预处理后的数据输出至分布式存储器。2.如权利要求1所述的装置,其特征在于:所述数据采集装置为安装于监测设备上的数据采集传感器。3.如权利要求1所述的装置,其特征在于:所述数据采集装置为监测设备安装区域的红外线检测器或者温度检测器。4.如权利要求1所述的装置,其特征在于:还包括与设备监测装置连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。5.如权利要求1所述的装置,其特征在于...

【专利技术属性】
技术研发人员:杨立涛王庆刚刘涛丛兴滋李书明
申请(专利权)人:山东鲁能软件技术有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1