一种电能质量数据清洗方法及装置制造方法及图纸

技术编号:19821940 阅读:51 留言:0更新日期:2018-12-19 14:45
本发明专利技术实施例公开一种电能质量数据清洗方法及装置,其中,方法包括:从电能质量终端获取电能质量基础数据,将其按照统一数据格式进行转换并存储到Hadoop分布式平台;基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;基于预先构建的数据清洗规则,利用Hadoop分布式平台对电能质量计算结果数据进行清洗,获得最终的电能质量数据。本发明专利技术实施例实现了异构电能质量数据兼容存储,提高了数据索引和查询效率,提高了数据清洗效率,保障了数据的准确性。

【技术实现步骤摘要】
一种电能质量数据清洗方法及装置
本专利技术实施例涉及数据处理
,具体涉及一种电能质量数据清洗方法及装置。
技术介绍
随着我国电能质量研究领域的建设与发展,电力企业已经积累了大量的电能质量数据,同时随着数据库技术的广泛应用和发展,针对于海量数据,基于Hadoop(海杜普)的分布式存储和计算已得到广泛应用,为了支撑和满足海量电能质量数据的业务应用分析应用,需将海量电能质量数据从各种异构分布式的数据源导入Hadoop分布式平台进行挖掘和分析。然而,受到设备差异、采集环境、参数设置及人工误差等因素的影响,这些海量数据必然存在遗漏、错误和不完整等数据质量问题,基于这些数据基础在应用于相关电能质量决策支持系统时会造错误的分析结果的产生,这将会误导企业电能质量管理决策,因此通过数据清洗,消除数据中的不一致和错误,保证数据的正确性,以提高决策的质量,已成为电能质量数据分析的重要环节。目前,数据清洗技术在国内的研究还处于初级起步阶段,现有的数据清洗技术分为模式层的清洗方法和实例型清洗方法,其中,模式层的清洗方法较多依靠人为清洗,自动清洗工具无较大进展;而实例型清洗方法针对缺失、错误和重复等数据质本文档来自技高网...

【技术保护点】
1.一种电能质量数据清洗方法,其特征在于,包括:从电能质量终端获取电能质量基础数据,将所述电能质量基础数据按照统一数据格式进行转换并存储到Hadoop分布式平台;基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据。

【技术特征摘要】
1.一种电能质量数据清洗方法,其特征在于,包括:从电能质量终端获取电能质量基础数据,将所述电能质量基础数据按照统一数据格式进行转换并存储到Hadoop分布式平台;基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据;对清洗后的电能质量数据按照日、月、年的维度进行计算,产生电能质量计算结果数据;基于所述预先构建的数据清洗规则,利用Hadoop分布式平台对所述电能质量计算结果数据进行清洗,获得最终的电能质量数据。2.根据权利要求1所述的方法,其特征在于,在基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗之前,所述方法还包括:预先构建数据清洗规则。3.根据权利要求1所述的方法,其特征在于,所述统一数据格式包括:行键、列和值;其中:行键:指标名称+监测点ID+对应频率+相别+采样率+值类型+精度与单位+时间量测;列:时间偏移量;值:量测值字面量,列值。4.根据权利要求3所述的方法,其特征在于,所述数据清洗规则,包括:数据属性缺失规则和数据属性异常规则;其中,所述数据属性缺失规则,包括:对于任意一条数据记录:若该条数据记录的行键存在属性值缺失,则不会产生该条数据记录;若该条数据记录的非行键存在属性值缺失,对于属性值缺失的任一属性,取该条数据记录中该属性前后相邻时刻数值的平均值替代该属性的属性值,若该属性前后相邻时刻数值也存在为空情况,则取不为空的相邻数据值替代该属性的属性值,若该条数据记录中非行键的属性值全部缺失,则剔除该条数据记录;所述数据属性异常规则,包括:判断数据记录所有属性是否满足合理规则库中该属性对应的取值范围,所述合理规则库是根据常识性规则和业务特定规则预先构建的;若数据记录任一属性不满足合理规则库中该属性对应的取值范围,则确定该属性为异常,将该属性进行清除,然后按照所述数据属性缺失规则进行属性替代。5.根据权利要求4所述的方法,其特征在于,所述基于预先构建的数据清洗规则,利用Hadoop分布式平台对转换后的电能质量基础数据进行清洗,获得电能质量数据,包括:按照预先构建的数据清洗规则,从转换后的电能质量基础数据中获取待清洗数据;根据所述数据清洗规则,在Hadoop分布式平台中对待清洗数据进行分布式清洗;检验本次分布式清洗完成后的数据是否满足所述数据清洗规则;若本次分布式清洗完成后的数据满足所述数据清洗规则,则将本次分布式清洗完成后的数据作为待清洗数据,返回所述根据所述数据清洗规则,在Hadoop分布...

【专利技术属性】
技术研发人员:杨柳徐玲铃彭江施明泰李浩松许中平陈其祥李金康泰峰王帅胡栋梁吴佳苏丹
申请(专利权)人:北京国网信通埃森哲信息技术有限公司国网信息通信产业集团有限公司国网冀北电力有限公司信息通信分公司国家电网有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1