一种基于大数据技术的图形化的数据预处理的装置及方法制造方法及图纸

技术编号:15691075 阅读:261 留言:0更新日期:2017-06-24 03:59
一种基于大数据技术的图形化的数据预处理的装置及方法,包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、ETL处理单元、数据预处理单元,其中数据采集装置与设备监测装置连接,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、ETL处理单元,可以快速、高效、及时地处理海量异构数据,同时保证设备安全、稳定、高效地运行。

A device and method for graphical data preprocessing based on large data technology

A device and method for data preprocessing of big data technology based on graphic, including data acquisition device, monitoring device, distributed memory, spark memory computing engine, calculation unit, ETL processing unit, data processing unit, wherein the data acquisition device and equipment monitoring device connecting equipment monitoring device is connected with distributed memory. Distributed memory connection data preprocessing unit, data processing unit includes a spark memory computing engine, processing unit, ETL calculation can be fast, efficient and timely processing of massive heterogeneous data, at the same time to ensure the safety of equipment, stable and efficient operation.

【技术实现步骤摘要】
一种基于大数据技术的图形化的数据预处理的装置及方法
本专利技术涉及设备监测分析应用领域,具体涉及到一种基于大数据技术的图形化的数据预处理的装置及方法。
技术介绍
随着智能电网的迅猛发展,电力系统已经开始迈向能源互联网和“大数据”时代,电力行业大量运行数据日益呈现体量大、类型多、价值高等特征,数据分析处理能力落后与数据快速增长之间的矛盾将更加突出;随着数据量、数据类型的不断增多,也出现数据分析性能瓶颈、缺少数据分析挖掘的高级方法、非结构化数据尚缺乏有效利用等问题,这制约了电力行业信息化从数字化向智能化的发展。能源互联网时代的大数据关键技术包括数据采集、传输、存储、质量管理、融合共享和深度挖掘等多个方面。电力行业中历史业务数据收集和分析、实时或准实时数据的即时分析是电力行业中信息化建设过程中比较重要的内容,它需要一套完整、稳定、契合实际业务场景的大数据分析装置的解决方案,对设备故障预警等实时分析类业务场景提供稳定可靠的底层数据支撑。近年来,随着云计算、大数据、机器学习、数据挖掘等IT技术迅猛发展,分布式存储、高性能计算在理论研究和技术实践层面均获得了关键性突破,业界涌现出了一批以Hadoop为代表的大数据处理和应用解决方案。Hadoop是一个可扩展框架,能够对大数据进行可靠的分布式处理,Hadoop的框架最核心的设计包括HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS是一个分布式文件系统,具有低成本、高可靠性性、高吞吐量的特点。MapReduce是一个变成模型和软件框架,它可以极大地简化大规模数据的处理过程。Spark是一种分布式大数据处理工具,本身不提供数据存储功能,它可以运行在Hadoop的HDFS或其它的分布式文件系统之上,Spark的设计初衷就是为了解决HadoopMapReduce反复读写文件系统从而效率低下的问题,它通过构建弹性分布式数据集(RDD)结构,支持数据内存驻留,实现了In-memoryMapReduce架构,在特定应用场景下弥补MapReduce的不足。Hadoop、Spark等通用的开源技术组件在功能完整性、运行稳定性方面存在一定的局限性,而基于Hadoop衍生的一些商用大数据平台又跟电力业务场景的实际需求存在偏差,因而,深度分析研究电力行业的业务需求,异构数据源的整合、集成是企业信息化建设过程经常遇到的一个现实问题,随着数据量的急剧增加,特别是非结构化数据的增加,传统的数据仓库技术和数据抽取工具在数据预处理单元方面的表现捉襟见肘,无法满足海量异构数据和杂乱低质量数据的数据处理性能要求,构建一种基于大数据技术的图形化的数据预处理单元装置及方法,具有深远的意义和较强的利用价值。智能电网大数据结构复杂、种类繁多,除传统的结构化数据外,还包含大量的半结构化、非结构化数据,如客户服务中心95598系统的语音数据,设备在线监测系统中的视频数据与图像数据等。这些数据的采样频率与生命周期也各不同,从微秒级、分钟级、小时级,一直到年度级。目前电网公司海量、多样的数据资源为数据深层次分析提供了良好条件,如何提升数据处理的性能、充分挖掘数据价值并实现数据资产管理使数据成为企业核心资产,成为当前待解决的问题。鉴于此,亟需一种能够实现海量多源异构电力大数据的统一表述、灵活采集、集中存储、有效评估、快速处理和安全共享的解决方案,研究基于元数据的多源异构大数据管理系统迫在眉睫。大数据的分布式计算能力应对异构数据整合问题,基于Spark内存计算引擎构建ETL处理单元,将数据抽取、数据转换、数据加载逻辑转化为支持参数配置和动态组合的计算单元,配合图形化的流程组态工具实现数据预处理单元过程的灵活定制,不仅可以解决异构数据预处理单元的性能问题,还可以有效提高数据预处理单元程序的复用度和灵活度。然而构建一种基于大数据技术的图形化的数据预处理单元的装置及方法,解决传统ETL工具无法妥善处理的海量异构数据整合的性能问题,提高数据预处理单元程序的复用度、灵活度和执行效率。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于大数据技术的图形化的数据预处理装置及方法,可以快速、高效、及时地处理海量异构数据,同时保证设备安全、稳定、高效地运行。本专利技术提供了一种基于大数据技术的图形化的数据预处理单元的装置,包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、ETL处理单元、数据预处理单元,其中数据采集装置与设备监测装置连接,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、ETL处理单元;数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业;每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;ETL处理单元,用于基于计算单元动态编排形成作业,基于Spark内存计算引擎构建,将数据抽取、数据转换、数据加载逻辑转化为支持图形化参数配置和动态组合;数据预处理单元,用于将设备信息异构数据,依据ETL处理单元进行数据的抽取、转换、加载的预处理,同时可以进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;通过平滑聚集,数据概化和/或规范化方式将数据转换成适用于数据挖掘的数据形式的过程。优选地,数据采集装置为安装于监测设备上的数据采集传感器;优选地,所述数据采集装置为监测设备安装区域的红外线检测器或者温度检测器优选地,还包括与设备监测装置连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。优选地,所述数据预处理单元还用于调用和接收分布式存储器中设备监测装置推送产生的新的时序数据,并对新的时序数据重复执行训练过程,对数据挖掘模型进行更新。优选地,所述人工输入装置为笔记本电脑、平板电脑或手机。优选地,数据预处理单元相关的计算单元包括但无效值过滤单元、缺失值补充单元、数据列选择单元、数据列变换单元、数据列追加单元和数据集合并单元中的一个或多个,根据具体的业务相互组合,并支持扩展,具体地:无效值过滤单元:采用规则引擎实现了组合条件判断规则的自由配置,将无效记录移除,保留符合要求的数据进入下一个处理环节;缺失值补充单元:采用计算函数实现了缺失值计算逻辑的自由配置,在具体计算作业中可以自定义缺本文档来自技高网
...
一种基于大数据技术的图形化的数据预处理的装置及方法

【技术保护点】
一种基于大数据技术的图形化的数据预处理的装置,其特征在于:包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、ETL处理单元、数据预处理单元,其中数据采集装置与设备监测装置连接,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、ETL处理单元;数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业;每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;ETL处理单元,用于基于计算单元动态编排形成作业,基于Spark内存计算引擎构建,将数据抽取、数据转换、数据加载逻辑转化为支持图形化参数配置和动态组合;数据预处理单元,用于将设备信息异构数据,依据ETL处理单元进行数据的抽取、转换、加载的预处理,同时可以进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;通过平滑聚集,数据概化和/或规范化方式将数据转换成适用于数据挖掘的数据形式的过程。...

【技术特征摘要】
1.一种基于大数据技术的图形化的数据预处理的装置,其特征在于:包括数据采集装置、设备监测装置、分布式存储器、spark内存计算引擎、计算单元、ETL处理单元、数据预处理单元,其中数据采集装置与设备监测装置连接,设备监测装置连接分布式存储器,分布式存储器连接数据预处理单元,数据预处理单元包括spark内存计算引擎、计算单元、ETL处理单元;数据采集装置,用于实时或准实时获取设备信息异构数据,并将采集到的设备信息异构数据传输给设备监测装置;设备监测装置,用于将设备信息异构数据收集,并推送到分布式存储器进行存储,并且以数据流入的方式,将设备监测装置数据输出至数据预处理单元过程;分布式存储器,又称时序数据存储器,用于经过设备实时海量异构数据和数据预处理单元后的设备数据的存储。Spark内存计算引擎,用于通过调用计算单元逻辑规则对数据进行计算,并将计算后的数据输出到分布式存储器;计算单元,用于驱动调度规则引擎来调用和接收分布式存储器存储的数据,依据预先编排好的处理逻辑对调用和接收的数据进行处理,训练形成数据挖掘模型;计算单元包括多个子计算单元,多个子计算单元按照实际业务需求图形化动态配置,动态编排形成作业;每个子计算单元独立存在,能够根据行业专家经验独立扩展演化,采用分布式的流式计算引擎对调用和接收的数据进行计算后实时输出,并将数据输出到分布式数据存储器;ETL处理单元,用于基于计算单元动态编排形成作业,基于Spark内存计算引擎构建,将数据抽取、数据转换、数据加载逻辑转化为支持图形化参数配置和动态组合;数据预处理单元,用于将设备信息异构数据,依据ETL处理单元进行数据的抽取、转换、加载的预处理,同时可以进行数据格式标准化,异常数据清除,错误纠正,重复数据的清除;并将多个数据源中的数据结合起来统一存储;通过平滑聚集,数据概化和/或规范化方式将数据转换成适用于数据挖掘的数据形式的过程。2.如权利要求1所述的装置,其特征在于:数据采集装置为安装于监测设备上的数据采集传感器。3.如权利要求1所述的装置,其特征在于:所述数据采集装置为监测设备安装区域的红外线检测器或者温度检测器。4.如权利要求1所述的装置,其特征在于:还包括与设备监测装置连接的人工输入装置,用于在因安全要求实施了隔离措施或不支撑数据接入的情形下输入监测设备数据。5.如权利要求1所述的装置,其特征在于:所述数据预处理单元还用于调用和接收分布式存储器中设备监测装置推送产生的新的时序数据,并对新的时序数据重复执行训练过程,对数据挖掘模型进行更新。6.如权利要求1所述的装置,其特征在于:所述人工输入装置为笔记本电脑、平板电脑或手机。7.如权利要求1所述的装置,其特征在于:数据预处理单元相关的计算单元包括但无效值过滤单元、缺失值补充单元、数据列选择...

【专利技术属性】
技术研发人员:刘涛杨立涛王庆刚丛兴滋李书明
申请(专利权)人:山东鲁能软件技术有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1