基于Hadoop的电力大数据处理系统技术方案

技术编号:27134239 阅读:15 留言:0更新日期:2021-01-25 20:31
本发明专利技术提供一种基于Hadoop的电力大数据处理系统,涉及大数据处理技术领域。该系统通过数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;数据仓库子系统通过数据仓库将电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告;本发明专利技术的系统基于Hadoop技术,能够实时处理电力大数据,具有高可靠、高效、可伸缩、高容错、低成本的特点。低成本的特点。低成本的特点。

【技术实现步骤摘要】
基于Hadoop的电力大数据处理系统


[0001]本专利技术涉及大数据处理
,尤其涉及一种基于Hadoop的电力大数据处理系统。

技术介绍

[0002]变电站作为电力系统运行的核心,其运行的安全稳定对电力企业发展起决定性作用,变电与配电工作正是保证变电站安全稳定运行的关键因素。500千伏变电站的运行状况,直接影响着区域主电力网的安全与稳定。同时,它还直接影响着电网供电的可靠性和经济性,通过对变电站运维管理优化研究对于提升变电站安全水平和经济水平具有重要的现实意义。
[0003]随着变电设备的数量增加,电力数据也随之增长,例如MIS系统数据、设备管理数据、历史检修数据等,因此,如果能在电力系统管理中引入大数据技术,对于电网的发展进步和提升电网资产管理效率将具有强力的促进作用。与此同时,随着电力企业实现设备检修的信息化、数字化,积累了大量的设备台帐数据、设备分类、设备技术参数、部件附属设备、仪表信息等设备基础信息数据,设备运行状态、设备缺陷部位、缺陷内容、造成的影响及可能的后果、技改过程记录等过程数据,及设备类型、厂家缺陷排名等统计分析数据。然而,这些数据分别在不同信息系统中,数据格式结构不同、数据标准不统一、数据质量难以评估,需要构建智能精益检修数据集成软件,离线或自动化实时同步集成电力生产MIS系统、设备管理系统、工作流数据、历史数据等多方数据源数据,并按照分析目标、智能精益检修大数据统一标准进行数据的集约化、标准化处理和清洗,形成用于大数据分析的数据格式和后期进行业务算法分析的数据基础。
[0004]另一方面,现有的系统随着使用的时间推移和不断深入,系统难免会产生一些失效数据、无依据来源数据、描述错误或不准确数据以及出现细节数据丢失等现象。以上现象的存在,导致数据中心在集成各业务系统数据的时候,必须着手解决数据质量问题。只有拥有高质量数据的数据中心,才可以充分挖掘数据潜在的价值,进而带来效益。为进一步增强系统分析性能,实现设备检修从信息化、数字化向标准化、集约化、智能化转型,需要在信息化基础上,引入大数据、人工智能深度学习技术,进行深度融合实现多源海量数据的快速分析、主动预测预警和故障智能研判,提升设备状态评估的效率和智能化水平。

技术实现思路

[0005]本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于Hadoop的电力大数据处理系统,对数据进行集中抽取、清洗、转换、筛选,进而实现对电力数据的持久存储。
[0006]为解决上述技术问题,本专利技术所采取的技术方案是:基于Hadoop的电力大数据处理系统,包括数据集成子系统、数据仓库子系统、数据质量管理子系统;
[0007]所述数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具
进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;
[0008]所述数据仓库子系统通过数据仓库将数据集成子系统得到的电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;所述数据仓库划分为四个逻辑区域:源数据存储区、数据暂存区、数据存储区、中央数据仓库/数据集市;
[0009]所述数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告。
[0010]优选地,所述数据集成子系统包括数据采集模块和数据处理模块;
[0011]所述数据采集模块以不同方式根据采集规则进行监控并采集相应的数据,并通过调用数据转换组件完成封装,再通过交换传输功能来完成数据从数据源到大数据平台的采集;采集驱动分为系统主动抽取和被动接收两种情况;
[0012]所述主动抽取利用变化数据捕获、日志挖掘、标识字段和接口方式,提供实时或定时的全量抽取、增量抽取和全量式增量抽取;所述被动接收的数据导入支持手动导入、批量式接入,支持多格式文件导入,支持一次性、周期性或事件驱动型的数据导入;
[0013]所述数据处理模块对存储在数据仓库源数据存储区的来自不同数据源的多源异构数据,通过ETL工具预处理后装载入数据仓库子系统的数据暂存区;ETL工具按照清洗规则对数据仓库子系统的数据暂存区、数据存储区的数据进行加工、汇总,最终装载入数据仓库的中央数据仓库中。
[0014]优选地,所述数据处理模块进行数据处理的具体过程为:
[0015]步骤1、数据预处理:加载源电力数据,增加时间拉链,并将数据载入数据仓库子系统的暂存区;然后对源电力数据做数据平衡检查、稽核数据有效性,并报告数据质量;
[0016]步骤2、数据清洗:对数据仓库子系统暂存区中的电力数据利用ETL工具进行标准化清洗,统一数据表达格式、排序数据、筛选重复数据、合并或分割数据项、无效数据删除、缺失列删除、缺失值替换、异常值处理、行去重、列去重、代码替换、数据过滤、类型转换和格式转换,将标准化清洗后数据装载入数据仓库子系统数据存储区的基础数据层,并报告数据清洗异常;
[0017]步骤3、数据转换:对数据仓库子系统数据存储区中的标准化电力数据,按照业务转换规则,增加序列、增加常量、行列转换、合并记录、数据项拼接、数据项拆分、数据类型转换、字符串替换、字符串填充、字符串剪切、字符串截断、数值提取、数值填充、值映射、计算函数转换、脚本执行、数据集拆分、数据集合并、数据集连接和数据集排序这些通用数据转换规则加工数据后装载入数据仓库的中央数据仓库中。
[0018]优选地,所述数据仓库子系统的源数据存储区存储数据集成子系统采集的来自不同数据源的原始电力数据,也称为原始数据源;
[0019]数据暂存区是为了保证数据移动的顺利进行而开设的增量性的数据存储空间,是源数据存储区中的原始电力数据进入中央数据仓库前的缓存区;所述数据暂存区的电力数据与现有的OLTP交易系统实体结构具有相同的属性,同时增加表示数据来源的属性SOURCE CODE和用于获得数据处理时间的属性LAST MODIFIED DATE;如果原始的电力数据中已经有了上述两个属性,则在这两个属性中增加DW后缀进行标识;数据暂存区的电力数据成功导
入数据存储区之后,清空数据暂存区中的数据;
[0020]数据存储区的数据作为数据仓库的数据进行存储;数据存储区从逻辑上分为两部分,一部分用来存放OLTP交易系统的历史数据,并确定是否对OLTP中的交易数据与基础数据进行生命周期管理;另一部分存放数据仓库部分加工的信息,即通过数据存储区对历史数据经过整合后的信息;
[0021]中央数据仓库为具有星型结构的多维数据存储区,中央数据仓库的实体包括事实实体和尺寸实体;中央数据仓库支持最细粒度级别数据查询,保证在最细粒度级别实现多维的分析,即能够同时支持汇总数据以及明细数据的多维查询;
[0022]数据集市是某一主题领域的专有的多维数据区,实现某一主题领域的多维查询需求;数据集市的实体也包括事实实体和尺寸实体两部分,但与中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Hadoop的电力大数据处理系统,其特征在于:包括数据集成子系统、数据仓库子系统、数据质量管理子系统;所述数据集成子系统采集来自不同数据源的多源异构电力数据,并通过ETL工具进行抽取、清洗、转换和加载,实现对不同数据源的数据集中收集,然后以一种固定的格式输出至数据仓库子系统;所述数据仓库子系统通过数据仓库将数据集成子系统得到的电力数据进行文件层的存储固化,以文件读写引擎HDFS进行数据读写支撑,支持大数据处理时的并行、多层数据处理;所述数据仓库划分为四个逻辑区域:源数据存储区、数据暂存区、数据存储区、中央数据仓库/数据集市;所述数据质量管理子系统通过配置好的规则对经过ETL工具处理后存储在数据仓库子系统中的电力数据进行监控管理,并提交数据质量报告。2.根据权利要求1所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据集成子系统包括数据采集模块和数据处理模块;所述数据采集模块以不同方式根据采集规则进行监控并采集相应的数据,并通过调用数据转换组件完成封装,再通过交换传输功能来完成数据从数据源到大数据平台的采集;采集驱动分为系统主动抽取和被动接收两种情况;所述主动抽取利用变化数据捕获、日志挖掘、标识字段和接口方式,提供实时或定时的全量抽取、增量抽取和全量式增量抽取;所述被动接收的数据导入支持手动导入、批量式接入,支持多格式文件导入,支持一次性、周期性或事件驱动型的数据导入;所述数据处理模块对存储在数据仓库源数据存储区的来自不同数据源的多源异构数据,通过ETL工具预处理后装载入数据仓库子系统的数据暂存区;ETL工具按照清洗规则对数据仓库子系统的数据暂存区、数据存储区的数据进行加工、汇总,最终装载入数据仓库的中央数据仓库中。3.根据权利要求2所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据处理模块进行数据处理的具体过程为:步骤1、数据预处理:加载源电力数据,增加时间拉链,并将数据载入数据仓库子系统的暂存区;然后对源电力数据做数据平衡检查、稽核数据有效性,并报告数据质量;步骤2、数据清洗:对数据仓库子系统暂存区中的电力数据利用ETL工具进行标准化清洗,统一数据表达格式、排序数据、筛选重复数据、合并或分割数据项、无效数据删除、缺失列删除、缺失值替换、异常值处理、行去重、列去重、代码替换、数据过滤、类型转换和格式转换,将标准化清洗后数据装载入数据仓库子系统数据存储区的基础数据层,并报告数据清洗异常;步骤3、数据转换:对数据仓库子系统数据存储区中的标准化电力数据,按照业务转换规则,增加序列、增加常量、行列转换、合并记录、数据项拼接、数据项拆分、数据类型转换、字符串替换、字符串填充、字符串剪切、字符串截断、数值提取、数值填充、值映射、计算函数转换、脚本执行、数据集拆分、数据集合并、数据集连接和数据集排序这些通用数据转换规则加工数据后装载入数据仓库的中央数据仓库中。4.根据权利要求1所述的基于Hadoop的电力大数据处理系统,其特征在于:所述数据仓库子系统的源数据存储区存储数据集成子系统采集的来自不同数据源的原始电力数据,也
称为原始数据源;数据暂存区是为了保证数...

【专利技术属性】
技术研发人员:薄宏斌张彦斌王瀚霆范继锋仲文博何世雄赵俊杰马兆嵘慕佩良王欣李中为
申请(专利权)人:内蒙古电力集团有限责任公司乌海超高压供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1