A device and method for data preprocessing of big data technology based on graphic, including data acquisition device, monitoring device, distributed memory, spark memory computing engine, calculation unit, ETL processing unit, data processing unit, wherein the data acquisition device and equipment monitoring device connecting equipment monitoring device is connected with distributed memory. Distributed memory connection data preprocessing unit, data processing unit includes a spark memory computing engine, processing unit, ETL calculation can be fast, efficient and timely processing of massive heterogeneous data, at the same time to ensure the safety of equipment, stable and efficient operation.
【技术实现步骤摘要】
一种基于大数据技术的图形化的数据预处理的装置及方法
本专利技术涉及设备监测分析应用领域,具体涉及到一种基于大数据技术的图形化的数据预处理的装置及方法。
技术介绍
随着智能电网的迅猛发展,电力系统已经开始迈向能源互联网和“大数据”时代,电力行业大量运行数据日益呈现体量大、类型多、价值高等特征,数据分析处理能力落后与数据快速增长之间的矛盾将更加突出;随着数据量、数据类型的不断增多,也出现数据分析性能瓶颈、缺少数据分析挖掘的高级方法、非结构化数据尚缺乏有效利用等问题,这制约了电力行业信息化从数字化向智能化的发展。能源互联网时代的大数据关键技术包括数据采集、传输、存储、质量管理、融合共享和深度挖掘等多个方面。电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大数据处理和应用解决方案。Hadoop是一个可扩展框架,能够对大数据进行可靠的分布式处理,Hadoop的框架最核心的设计包括HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS是一个分布式文件系统,具有低成本、高可靠性性、高吞吐量的特点。MapReduce是一个变成模型和软件框架,它可以极大地简化大规模数 ...
【技术保护点】
一种基于大数据技术的图形化的数据预处理的装置,其特征在于:包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、ETL处理单元、数据预处理单元,其中数据采集装置与设备监测装置连接,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、ETL处理单元;数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形 ...
【技术特征摘要】
1.一种基于大数据技术的图形化的数据预处理的装置,其特征在于:包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、ETL处理单元、数据预处理单元,其中数据采集装置与设备监测装置连接,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、ETL处理单元;数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业;每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;ETL处理单元,用于基于计算单元动态编排形成作业,基于Spark内存计算引擎构建,将数据抽取、数据转换、数据加载逻辑转化为支持图形化参数配置和动态组合;数据预处理单元,用于将设备信息异构数据,依据ETL处理单元进行数据的抽取、转换、加载的预处理,同时可以进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;通过平滑聚集,数据概化和/或规范化方式将数据转换成适用于数据挖掘的数据形式的过程。2.如权利要求1所述的装置,其特征在于:数据采集装置为安装于监测设备上的数据采集传感器。3.如权利要求1所述的装置,其特征在于:所述数据采集装置为监测设备安装区域的红外线检测器或者温度检测器。4.如权利要求1所述的装置,其特征在于:还包括与设备监测装置连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。5.如权利要求1所述的装置,其特征在于:所述数据预处理单元还用于调用和接收分布式存储器中设备监测装置推送产生的新的时序数据,并对新的时序数据重复执行训练过程,对数据挖掘模型进行更新。6.如权利要求1所述的装置,其特征在于:所述人工输入装置为笔记本电脑、平板电脑或手机。7.如权利要求1所述的装置,其特征在于:数据预处理单元相关的计算单元包括但无效值过滤单元、缺失值补充单元、数据列选择...
【专利技术属性】
技术研发人员:刘涛,杨立涛,王庆刚,丛兴滋,李书明,
申请(专利权)人:山东鲁能软件技术有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。