一种基于CIM的数据清洗转换方法技术

技术编号:20117490 阅读:74 留言:0更新日期:2019-01-16 12:01
本发明专利技术提供了一种基于CIM的数据清洗转换方法,该方法包括:捕获电力系统的运行数据;将所捕获的电力系统的运行数据进行清洗和转换,得到基于CIM统一规范的数据,并存储至分布式文件系统中;从分布式文件系统抽取数据,构建基于CIM的分布式数据仓库。本发明专利技术提出了一种基于CIM的数据清洗转换方法,在改进的电网运行数据模型和分布式数据平台的支持下,对源数据进行抽取、清洗、整合,保障数据质量和可靠性,实现基于数据库的统一标准数据输出,具有支持集群部署和并发计算的广泛适用性,可为电网数据自动化集成和分析提供可靠支持。

A Data Cleaning and Conversion Method Based on CIM

The invention provides a data cleaning and conversion method based on CIM, which includes: capturing the operation data of power system; cleaning and transforming the captured operation data of power system, obtaining the data based on CIM unified specification, and storing it in distributed file system; extracting data from distributed file system and constructing a distributed data warehouse based on CIM. The invention proposes a data cleaning and conversion method based on CIM. With the support of improved grid operation data model and distributed data platform, the source data is extracted, cleaned and integrated to ensure data quality and reliability, and the unified standard data output based on database is realized. The method has wide applicability to support cluster deployment and concurrent computing, and can be self-contained for grid data. Dynamic integration and analysis provide reliable support.

【技术实现步骤摘要】
一种基于CIM的数据清洗转换方法
本专利技术属于电网大数据领域,尤其涉及一种基于CIM的数据清洗转换方法。
技术介绍
随着各类输变电设备的广泛应用,电网运行数据量呈现几何级增长。对于海量的运行数据进行快速的分析处理,实现异常数据检测和挖掘,面临的挑战是如何将电网运行大数据进行有效数据处理与高效数据分析。由于各网省公司的软硬件系统、资源都存在较大的差异,加大了数据联机分析平台构建的难度。传统的电网运行数据平台已经无法满足企业运行数据存储优化与并行处理的需要。而传统的数据存储结构直观,但其显著的缺点是数据的冗余量较大。造成运行信息重复存储,给不同运行数据表之间的融合操作带来一定的困难,导致运行数据的查询效率低。
技术实现思路
本专利技术的目的在于将电网运行大数据进行有效处理,便于企业将多个电网系统进行集成和融合以实现统一高效的大数据分析。通过建立分布式数据清洗转换框架和可操作数据区,避免数据转换过程与数据查询的冲突,并在建立的数据仓库基础上进行电网数据挖掘,包括利用改进的电网数据模型实现关联分析和异常数据识别。为解决上述问题,本专利技术提出了一种基于CIM的数据清洗转换方法,包括:捕获电力系统的运行数据;将所捕获的电力系统的运行数据进行清洗和转换,得到基于CIM统一规范的数据,并存储至分布式文件系统中;从分布式文件系统抽取数据,构建基于CIM的分布式数据仓库。优选地,所述运行数据包含设备台账信息、运维数据、故障数据、潮流拓扑数据、GIS设备信息。优选地,将所述电力系统的模型信息和基于CIM的分布式数据仓库的元数据存储在MangoDB中。优选地,所述基于CIM的分布式数据仓库通过MapReduce拆解任务之后直接从分布式文件系统抽取数据进行分析,统一进行数据管理与数据访问并实现模型数据映射和性能优化。优选地,所述模型数据映射包括电力系统业务模型的属性与底层不同类型数据源的模型数据映射。优选地,所述清洗和转换包括两阶段:第一阶段是将数据从数据源抽取到可操作数据缓冲区,第二阶段将数据从可操作数据缓冲区抽取到基于CIM的数据仓库:(1)第一阶段,将异构的数据源抽取到可操作数据缓冲区中,经过第一阶段,将电力系统的运行数据在可操作数据缓冲区中建立一个相同结构、相同内容的副本备份;(2)第二阶段,对可操作数据缓冲区的数据进行统计合并和汇总,使用增量加载方式将数据存储到基于CIM的数据仓库中;所述数据抽取为增量抽取,若在抽取时无法判断增量,则在加载时计算出增量,数据加载到基于CIM的数据仓库时添加时间标志;从可操作数据到基于CIM的数据仓库的抽取流程中,数据从可操作数据缓冲区读取出来后,先进行统一信息编码处理,再分别对事实表数据、维度表数据进行不同处理;对于事实表的数据变化,根据不同的变化情况选择不同的增量加载方式,若数据按时间变化,则采用时间戳增量,若数据呈现无规则变化,则进行全表的比对数据增量;对于维度表的数据变化,用最新的基于CIM的数据覆盖离线数据。优选地,所述从分布式文件系统抽取数据进行分析,进一步还包括对电力系统运行数据的相似性分析。优选地,在所述电力系统运行数据的相似性分析中,根据序列曲线形状来判断不同序列之间的联系,选择时间特征相关因素作为计算关联度的样本;具体计算步骤如下:(1)设当前时间序列Y={Y(m)|m=1,2…p}为参考序列,历史时间运行数据序列Xi={Xi(m)|m=1,2…p},i=1,2…k为比较序列,p为序列元素个数;(2)计算(3)计算关联系数ζi(m):式中ζi(m)为Y(m)在Xi(m)处的关联系数:其中△i(m)=|y(m)-xi(m)|,ρ为分辨系数,取值区间为(0,1):(4)计算关联度:本专利技术相比现有技术,具有以下优点:本专利技术提出了一种基于CIM的数据清洗转换方法,在改进的电网运行数据模型和分布式数据平台的支持下,对源数据进行抽取、清洗、整合,保障数据质量和可靠性,实现基于数据库的统一标准数据输出,具有支持集群部署和并发计算的广泛适用性,可为电网数据自动化集成和分析提供可靠支持。附图说明图1是根据本专利技术实施例的基于CIM的数据清洗转换方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,将结合附图对本专利技术作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本专利技术的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本专利技术,在不脱离本专利技术的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。本专利技术的一方面提供了一种基于CIM的数据清洗转换方法。图1是根据本专利技术实施例的基于CIM的数据清洗转换方法流程图。本专利技术基于CIM的电力系统运行数据监控平台包括数据汇集服务器、数据加工存储服务器和数据分析服务器。数据汇集服务器通过传感器等捕获电力系统运行数据,所述运行数据包含设备台账信息、运维数据、故障数据、潮流拓扑数据、GIS设备信息,也包含非结构化图像和视频。在异构的海量数据中包含了大量复杂、冗余、错误的数据,需要在短时间内提炼出构成统一规范的数据。数据加工存储服务器将分布式文件系统和MangoDB数据库进行整合,将具有统一规范的监控数据存储至分布式文件系统中,将电力系统的模型信息和基于CIM的分布式数据仓库的元数据存储在MangoDB中,基于CIM的分布式数据仓库创建的表和字段都存储在MangoDB中。在执行数据操作的同时,启动MangoDB引擎来验证元数据是否存在。所述数据分析服务器完成对电力系统运行数据的分布式相似性分析。在基于CIM的分布式数据仓库通过MapReduce拆解任务之后,直接从分布式文件系统抽取数据进行分析,统一进行数据管理与数据访问,在该层实现模型数据映射和性能优化,所述模型数据映射实现电力系统业务模型各属性与底层不同类型数据源的模型数据映射,支持对基于CIM的数据仓库、关系数据库和非关系数据库的访问,提供基于业务模型的统一查询和更新API;所述性能优化提供二级缓存、异步并行的数据查询。所述数据加工存储服务器在上述分布式架构的基础上设置基于CIM的数据清洗转换框架,包括语义解析模块、MangoDB规则库、调度模块和清洗转换模块。电力系统接收来自用户请求的数据清洗转换任务,将数据清洗转换任务解译为满足统一格式的DAG结构的工作流图,由于电力系统的数据转换语义在执行逻辑上不是最优的,需要交由语义解析模块完成优化工作。语义解析模块对经由电力系统格式化的清洗转换工作流图进行分析和优化,通过遍历图中的各节点,确定工作流中的活动属性,对工作流图进行转换,最后将优化后的工作流图送至协调单元执行。具体流程如下:1.循环遍历工作流图的各节点。对入度为0的节点即电力系统数据源,确定数据源的数据量,将基于CIM的相关信息记录到MangoDB规则库中;对于出度为0的节点即可操作数据集,在MangoDB规则库记录相关的元数据;对于出度和入度都大于0的活动节点,判断其活动类型,对于用作划分工作流的二元活动节点,记录该活动的属性及所处位置。2.遍历节点后,对工作流中的节本文档来自技高网...

【技术保护点】
1.一种基于CIM的数据清洗转换方法,其特征在于,包括:捕获电力系统的运行数据;将所捕获的电力系统的运行数据进行清洗和转换,得到基于CIM统一规范的数据,并存储至分布式文件系统中;从分布式文件系统抽取数据,构建基于CIM的分布式数据仓库。

【技术特征摘要】
1.一种基于CIM的数据清洗转换方法,其特征在于,包括:捕获电力系统的运行数据;将所捕获的电力系统的运行数据进行清洗和转换,得到基于CIM统一规范的数据,并存储至分布式文件系统中;从分布式文件系统抽取数据,构建基于CIM的分布式数据仓库。2.根据权利要求1所述的方法,其特征在于,所述运行数据包含设备台账信息、运维数据、故障数据、潮流拓扑数据、GIS设备信息。3.根据权利要求1所述的方法,其特征在于,还包括:将所述电力系统的模型信息和基于CIM的分布式数据仓库的元数据存储在MangoDB中。4.根据权利要求3所述的方法,其特征在于,所述基于CIM的分布式数据仓库通过MapReduce拆解任务之后直接从分布式文件系统抽取数据进行分析,统一进行数据管理与数据访问并实现模型数据映射和性能优化。5.根据权利要求4所述的方法,其特征在于,所述模型数据映射包括电力系统业务模型的属性与底层不同类型数据源的模型数据映射。6.根据权利要求1所述的方法,其特征在于,所述清洗和转换包括两阶段:第一阶段是将数据从数据源抽取到可操作数据缓冲区,第二阶段将数据从可操作数据缓冲区抽取到基于CIM的数据仓库:(1)第一阶段,将异构的数据源抽取到可操作数据缓冲区中,经过第一阶段,将电力系统的运行数据在可操作数据缓冲区中建立一个相同结构、相同内容的副本备份;(2)第二阶段,对可操作数据缓冲区的数据进行统计合并...

【专利技术属性】
技术研发人员:李晖陈清族陈世春邹墨何德明许梓明马汉斌陈珺谢驰程友平温天宝林超周暖青林永辉刘化龙李雪梅谢妙红林朝灯李建平
申请(专利权)人:国网福建省电力有限公司信息通信分公司国网信通亿力科技有限责任公司国网信息通信产业集团有限公司国家电网有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1