【技术实现步骤摘要】
一种用于电力传感数据的清洗方法、装置和系统
本专利技术涉及数据清洗技术,具体涉及一种用于电力传感数据的清洗方法、装置和系统。
技术介绍
电力传感设备从属于不同的电力设备,广泛分布在电网的各级单位,智能电网的绝大多数数据是由电力传感设备产生的,且智能电网的规模非常庞大,且规模正在逐年扩展。伴随智能电网规模的扩大,电力传感设备产生的电力传感数据将越来越多。然而,受到数据干扰源、电力传感数据采集和网络传输异常等因素的影响,电力传感数据通常存在数据质量问题,即电力传感数据存在数据准确性不高且属于异常数据。数据清洗是确保数据信息源的数据质量的方法之一,异常数据的检测和修复便成为数据清洗的关键问题,目前关于异常数据的清洗主要采取以下两种措施:1)使用自动化方法和工具清洗企业信息数据:该措施能够针对海量的企业信息数据进行以下处理:找出相似重复的数据以便去重,对不同来源的数据进行匹配,还使数据标准化。通过网站提供的在线数据匹配工具,可把不同来源的企业信息数据匹配到统一的编码下,以便合并,实现对现有的企业信息数据进行查重和去重。2)通过数据质量管理平台软件QualityCube清洗 ...
【技术保护点】
一种用于电力传感数据的清洗方法,其特征在于,包括:采用K‑Means聚类法将电力传感数据中的结构化数据聚类为多个分区;对每个分区中的结构化数据进行检测;对检测得到的异常数据进行修复。
【技术特征摘要】
1.一种用于电力传感数据的清洗方法,其特征在于,包括:采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;对每个分区中的结构化数据进行检测;对检测得到的异常数据进行修复。2.根据权利要求1所述的用于电力传感数据的清洗方法,其特征在于,所述采用K-Means聚类将电力传感数据中的结构化数据聚类为多个分区,包括:按下式计算类内平均距离:其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且其中表示Ck中的第n个元素,Ck表示第k个簇,nk表示Ck中的元素数,xk表示Ck的簇中心;选择满足MIA(K)-MIA(K+1)>c的最大K值作为最优簇数量,其中MIA(K+1)表示簇数量为K+1时的类内平均距离,c表示簇数量阈值;对最优簇数量对应的K-Means聚类的聚类结果再进行聚类。3.根据权利要求1所述的用于电力传感数据的清洗方法,其特征在于,所述对每个分区中的结构化数据进行检测,包括:判断每个分区中结构化数据的数值是否大于相应分区的数据上限或小于相应分区的数据下限,若是,该结构化数据为异常数据,否则结构化数据为正常数据。4.根据权利要求1或3所述的用于电力传感数据的清洗方法,其特征在于,所述对检测得到的异常数据进行修复,包括:采用平均值修复法、中值修复法或模式值修复法对检测得到的异常数据进行修复。5.一种用于电力传感数据的清洗装置,其特征在于,包括:聚类模块,用于采用K-Means聚类法将电力传感数据中的结构化数据聚类为多个分区;检测模块,用于对每个分区中的结构化数据进行检测;修复模块,用于对检测得到的异常数据进行修复。6.根据权利要求5所述的用于电力传感数据的清洗装置,其特征在于,所述聚类模块具体用于:按下式计算类内平均距离:其中,K表示簇的数量,MIA(K)表示簇数量为K时的类内平均距离,dk表示第k个簇中样本点到簇中心的平均距离,且其中表示Ck中的第n个元...
【专利技术属性】
技术研发人员:陈江琦,刘贺,刘卫卫,赵婷,杨訸,黄复鹏,王晓慧,朱承治,
申请(专利权)人:全球能源互联网研究院,国网浙江省电力公司,国家电网公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。