The invention provides a data cleaning and conversion method based on CIM, which includes: capturing the operation data of power system; cleaning and transforming the captured operation data of power system, obtaining the data based on CIM unified specification, and storing it in distributed file system; extracting data from distributed file system and constructing a distributed data warehouse based on CIM. The invention proposes a data cleaning and conversion method based on CIM. With the support of improved grid operation data model and distributed data platform, the source data is extracted, cleaned and integrated to ensure data quality and reliability, and the unified standard data output based on database is realized. The method has wide applicability to support cluster deployment and concurrent computing, and can be self-contained for grid data. Dynamic integration and analysis provide reliable support.
【技术实现步骤摘要】
一种基于CIM的数据清洗转换方法
本专利技术属于电网大数据领域,尤其涉及一种基于CIM的数据清洗转换方法。
技术介绍
随着各类输变电设备的广泛应用,电网运行数据量呈现几何级增长。对于海量的运行数据进行快速的分析处理,实现异常数据检测和挖掘,面临的挑战是如何将电网运行大数据进行有效数据处理与高效数据分析。由于各网省公司的软硬件系统、资源都存在较大的差异,加大了数据联机分析平台构建的难度。传统的电网运行数据平台已经无法满足企业运行数据存储优化与并行处理的需要。而传统的数据存储结构直观,但其显著的缺点是数据的冗余量较大。造成运行信息重复存储,给不同运行数据表之间的融合操作带来一定的困难,导致运行数据的查询效率低。
技术实现思路
本专利技术的目的在于将电网运行大数据进行有效处理,便于企业将多个电网系统进行集成和融合以实现统一高效的大数据分析。通过建立分布式数据清洗转换框架和可操作数据区,避免数据转换过程与数据查询的冲突,并在建立的数据仓库基础上进行电网数据挖掘,包括利用改进的电网数据模型实现关联分析和异常数据识别。为解决上述问题,本专利技术提出了一种基于CIM的数据清洗转换方法,包括:捕获电力系统的运行数据;将所捕获的电力系统的运行数据进行清洗和转换,得到基于CIM统一规范的数据,并存储至分布式文件系统中;从分布式文件系统抽取数据,构建基于CIM的分布式数据仓库。优选地,所述运行数据包含设备台账信息、运维数据、故障数据、潮流拓扑数据、GIS设备信息。优选地,将所述电力系统的模型信息和基于CIM的分布式数据仓库的元数据存储在MangoDB中。优选地,所述基于CIM的分布 ...
【技术保护点】
1.一种基于CIM的数据清洗转换方法,其特征在于,包括:捕获电力系统的运行数据;将所捕获的电力系统的运行数据进行清洗和转换,得到基于CIM统一规范的数据,并存储至分布式文件系统中;从分布式文件系统抽取数据,构建基于CIM的分布式数据仓库。
【技术特征摘要】
1.一种基于CIM的数据清洗转换方法,其特征在于,包括:捕获电力系统的运行数据;将所捕获的电力系统的运行数据进行清洗和转换,得到基于CIM统一规范的数据,并存储至分布式文件系统中;从分布式文件系统抽取数据,构建基于CIM的分布式数据仓库。2.根据权利要求1所述的方法,其特征在于,所述运行数据包含设备台账信息、运维数据、故障数据、潮流拓扑数据、GIS设备信息。3.根据权利要求1所述的方法,其特征在于,还包括:将所述电力系统的模型信息和基于CIM的分布式数据仓库的元数据存储在MangoDB中。4.根据权利要求3所述的方法,其特征在于,所述基于CIM的分布式数据仓库通过MapReduce拆解任务之后直接从分布式文件系统抽取数据进行分析,统一进行数据管理与数据访问并实现模型数据映射和性能优化。5.根据权利要求4所述的方法,其特征在于,所述模型数据映射包括电力系统业务模型的属性与底层不同类型数据源的模型数据映射。6.根据权利要求1所述的方法,其特征在于,所述清洗和转换包括两阶段:第一阶段是将数据从数据源抽取到可操作数据缓冲区,第二阶段将数据从可操作数据缓冲区抽取到基于CIM的数据仓库:(1)第一阶段,将异构的数据源抽取到可操作数据缓冲区中,经过第一阶段,将电力系统的运行数据在可操作数据缓冲区中建立一个相同结构、相同内容的副本备份;(2)第二阶段,对可操作数据缓冲区的数据进行统计合并...
【专利技术属性】
技术研发人员:李晖,陈清族,陈世春,邹墨,何德明,许梓明,马汉斌,陈珺,谢驰,程友平,温天宝,林超,周暖青,林永辉,刘化龙,李雪梅,谢妙红,林朝灯,李建平,
申请(专利权)人:国网福建省电力有限公司信息通信分公司,国网信通亿力科技有限责任公司,国网信息通信产业集团有限公司,国家电网有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。