一种用于电力传感数据的清洗方法、装置和系统制造方法及图纸

技术编号:17248512 阅读:81 留言:0更新日期:2018-02-11 06:41
本发明专利技术提供一种用于电力传感数据的清洗方法、装置和系统,采用K‑Means聚类法将电力传感数据中的结构化数据聚类为多个分区,对每个分区中的结构化数据进行检测,对检测得到的异常数据进行修复,最终实现异常数据的清洗。本发明专利技术采用K‑Means聚类法将电力传感数据中的结构化数据聚类为多个分区的过程中,在对最优簇数量对应的K‑Means聚类的聚类结果再进行聚类时考虑了连续电力传感数据之间的关联等特性,能够发现更多的异常数据,能够有效改善大规模电力传感数据的数据质量;且将电力传感数据的时间特性引入异常数据检测过程,能够识别出在阈值范围内但与邻近点的值存在较大偏差的异常数据。

【技术实现步骤摘要】
一种用于电力传感数据的清洗方法、装置和系统
本专利技术涉及数据清洗技术,具体涉及一种用于电力传感数据的清洗方法、装置和系统。
技术介绍
电力传感设备从属于不同的电力设备,广泛分布在电网的各级单位,智能电网的绝大多数数据是由电力传感设备产生的,且智能电网的规模非常庞大,且规模正在逐年扩展。伴随智能电网规模的扩大,电力传感设备产生的电力传感数据将越来越多。然而,受到数据干扰源、电力传感数据采集和网络传输异常等因素的影响,电力传感数据通常存在数据质量问题,即电力传感数据存在数据准确性不高且属于异常数据。数据清洗是确保数据信息源的数据质量的方法之一,异常数据的检测和修复便成为数据清洗的关键问题,目前关于异常数据的清洗主要采取以下两种措施:1)使用自动化方法和工具清洗企业信息数据:该措施能够针对海量的企业信息数据进行以下处理:找出相似重复的数据以便去重,对不同来源的数据进行匹配,还使数据标准化。通过网站提供的在线数据匹配工具,可把不同来源的企业信息数据匹配到统一的编码下,以便合并,实现对现有的企业信息数据进行查重和去重。2)通过数据质量管理平台软件QualityCube清洗系统数据:数据质量管本文档来自技高网...
一种用于电力传感数据的清洗方法、装置和系统

【技术保护点】
一种用于电力传感数据的清洗方法,其特征在于,包括:采用K‑Means聚类法将电力传感数据中的结构化数据聚类为多个分区;对每个分区中的结构化数据进行检测;对检测得到的异常数据进行修复。

【技术特征摘要】
1.一种用于电力传感数据的清洗方法,其特征在于,包括:采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;对每个分区中的结构化数据进行检测;对检测得到的异常数据进行修复。2.根据权利要求1所述的用于电力传感数据的清洗方法,其特征在于,所述采用K-Means聚类将电力传感数据中的结构化数据聚类为多个分区,包括:按下式计算类内平均距离:其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且其中表示Ck中的第n个元素,Ck表示第k个簇,nk表示Ck中的元素数,xk表示Ck的簇中心;选择满足MIA(K)-MIA(K+1)>c的最大K值作为最优簇数量,其中MIA(K+1)表示簇数量为K+1时的类内平均距离,c表示簇数量阈值;对最优簇数量对应的K-Means聚类的聚类结果再进行聚类。3.根据权利要求1所述的用于电力传感数据的清洗方法,其特征在于,所述对每个分区中的结构化数据进行检测,包括:判断每个分区中结构化数据的数值是否大于相应分区的数据上限或小于相应分区的数据下限,若是,该结构化数据为异常数据,否则结构化数据为正常数据。4.根据权利要求1或3所述的用于电力传感数据的清洗方法,其特征在于,所述对检测得到的异常数据进行修复,包括:采用平均值修复法、中值修复法或模式值修复法对检测得到的异常数据进行修复。5.一种用于电力传感数据的清洗装置,其特征在于,包括:聚类模块,用于采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;检测模块,用于对每个分区中的结构化数据进行检测;修复模块,用于对检测得到的异常数据进行修复。6.根据权利要求5所述的用于电力传感数据的清洗装置,其特征在于,所述聚类模块具体用于:按下式计算类内平均距离:其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且其中表示Ck中的第n个元...

【专利技术属性】
技术研发人员:陈江琦刘贺刘卫卫赵婷杨訸黄复鹏王晓慧朱承治
申请(专利权)人:全球能源互联网研究院国网浙江省电力公司国家电网公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1