【技术实现步骤摘要】
异常行度数据清洗及画像效果提升方法
[0001]本专利技术涉及的是一种配电网控制领域的技术,具体是一种异常行度数据清洗及画像效果 提升方法。
技术介绍
[0002]在行度数据的采集、传输、储存过程中,测量装置故障、数据传输线路中断、数据库管 理异常等均会造成数据异常,异常数据不能准确反映负荷变化的一般规律,还会对聚类果产生 影响,特别是抗噪性能较差的聚类算法,很可能产生错误结果。异常数据可分为畸变数据、缺 失数据、冗余数据三种。畸变数据包含永久性的行度数据上升与下降,瞬时性的行度峰值,短 时的行度上升与下降,缺失数据则往往是因为测量单元发生故障或在数据采集过程中其他相关 元件发生故障,缺失数据一般记录为空值,冗余数据则表现为同一天内有多个行度值,但仅有 一个数据为有效数据,此外,以上异常数据存在多种组合情况,此类数据无法进行清洗,只能 通过结果进行舍弃。
[0003]电力公司对于行度数据的清洗通常通过SQL语言与python自编程两种方式进行。通过 SQL语言进行数据清洗可以借助电力公司现有的数据库系统,实现较为高效 ...
【技术保护点】
【技术特征摘要】
1.一种异常行度数据清洗及画像效果提升方法,其特征在于,将SQL数据库的数据格式转换为Dataframe格式后,针对行度数据缺陷类型与特征进行分析,通过数据清洗策略以函数化并行化的方式实现,实现数据清洗,具体包括:步骤1、行度数据去空、去重、排序;步骤2、差分得到电量数据,电量数据去空;步骤3、通过sum函数与条件语句计算正值电量数据均值E
ave
;步骤4、通过drop函数与条件语句比较电量数据第一个点与E
ave
,删除数据异常点;步骤5、比较电量差分数据与E
ave
,删除数据异常增长点,通过diff函数差分后,通过drop函数与条件语句进行筛查,随后进行还原;步骤6、通过drop函数与条件语句将电量数据去负值;步骤7、通过reindex函数按标准时间戳重新编号;步骤8、根据时间戳通过apply(pandas.Series.interpolate)函数进行线性填充。2.根据权利要求1所述的异常行度数据清洗及画像效果提升方法,其特征是,所述的步骤1包括:1.1)编写pyt...
【专利技术属性】
技术研发人员:徐硕,莫文雄,栾乐,许中,崔屹平,罗思敏,彭和平,王海靖,肖天为,周凯,刘田,
申请(专利权)人:广东电网有限责任公司广州供电局,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。