一种适用于太阳能光伏数据的数据清洗方法技术

技术编号:21431956 阅读:48 留言:0更新日期:2019-06-22 11:51
本发明专利技术公开一种适用于太阳能光伏数据的数据清洗方法,包括三个步骤,分别为采集光伏数据、挖掘异常数据和清洗异常数据;本发明专利技术通过在相邻区域设置多组传感器采集太阳能光伏数据,得到多组强关联性数据;结合多组数据之间的关系、数据变化率,应用统计学原理挖掘所述光伏数据中的异常数据,并将异常数据分为冗余数据、缺省数据和错误数据三大类;清洗数据时,先删除冗余数据,再对单组传感器测得的错误数据通过SPGP数据重构法进行重构,再对整行错误数据和整行缺省数据通过基于三次样条插值法的数据重构法进行重构,能较好地对光伏数据中的异常数据进行补齐,最大化地利用了所有正常数据对异常数据进行清洗,数据误差极小,清洗效果好且效率较高。

【技术实现步骤摘要】
一种适用于太阳能光伏数据的数据清洗方法
本专利技术属于数据清洗
,具体是一种适用于太阳能光伏数据的数据清洗方法。
技术介绍
近年,随着技术发展与人们对能源、环境问题的重视,可再生能源在整个能源消耗中的占比正大幅提升。太阳能光伏等作为目前非常有竞争优势的可再生能源,除大规模集中发电与无电地区离网系统应用外,其在城市与发达农村地区等得以分布式发电方式得以广泛应用,将是未来电网不可或缺的重要组成。光伏数据往往贮存于分布式多源异构数据库中,具有数据量大而且种类复杂等特征,数据质量时常由于测量设备的故障与不稳定性而降低,产生大量异常数据或形成冗余,又或是在数据传输过程中出现丢包。数据质量的好坏直接影响了后期根据数据进行的发电预测和能源调度。为了提高光伏发电预测的准确性,优化光伏发电及绿色储能蓄能效率与电网的综合匹配,从而达到对分布式能源的充分合理利用,光伏数据必须有良好的质量,数据清洗环节必不可少。光伏数据自身极大的不稳定性和复杂性给数据清洗带来了巨大的困难。李郅明等对单独的异常数据取邻近数据的中值纠错,对连续的异常数据进行人工纠错,方法比较简单,可是人工纠错存在着较大的误差,面对大量异常时效率极低,且这种方式不适用于变化性极强的光伏数据。李昌华等针对建筑节能气候数据清洗采用了K-means聚类算法与BP神经网络相结合的算法,有效清洗率达到96.3%,可是该方法存在一定的局限性,不适用于非集群类数据,且BP神经网络结构复杂,收敛速度慢,容易陷入局部极值而训练失败。沈小军等提出了四分位-变点分组法对风速及风功率数据进行清洗,虽然清洗效果好效率高,然而容易剔除变化率大的有效数据,对数据的利用率低且损失了很多有用数据。胡阳等针对风电运行数据提出了一种基于置信等效边界模型的方法判定异常数据,划分精细然而效率较低而且难以适用于其他场景,再由三次Hermite插值法重构缺失数据,重构的数据曲线仍然不够平滑。刘帅等则采用拉格朗日插值法,计算简便但是多项式的次数可能会很高,结果变化性极大易产生龙格现象。
技术实现思路
本专利技术的目的是针对现有技术存在的问题,提供一种适用于太阳能光伏数据的数据清洗方法,解决现有的太阳能光伏有效数据利用率低,异常数据难识别,异常数据重构效率低,重构效果不佳等问题。为实现上述目的,本专利技术采用的技术方案是:一种适用于太阳能光伏数据的数据清洗方法——强关联数据分类清洗法,包括以下步骤:S1,采集光伏数据,在相邻区域(相距不远的区域)设置多组传感器采集太阳能光伏数据,得到多组变化趋势高度相似的强关联性数据,将不同组传感器在同一时间采集的数据在数据库中按列进行排序,将同一组传感器在不同时间采集的数据在数据库中按行进行排序;S2,结合多组数据之间的关系、数据变化率,应用统计学原理挖掘所述光伏数据中的异常数据,并将所述异常数据分为三类数据,分别为:冗余数据、缺省数据和错误数据;S3,清洗异常数据,首先,以时间为主键删除异常数据中的冗余数据;然后,对单组传感器测得的错误数据(单组错误数据意为有某组传感器采集数据错误,但有其余组传感器采集数据正常)采用SPGP数据重构法(SeekPartialGuidanceofPearson,对皮尔逊公式求偏导)进行数据重构;最后,对数据库中整行错误数据(整行错误数据意为所有组的传感器采集的数据均为错误数据)和整行缺省数据采用基于三次样条插值法的数据重构法进行数据重构。具体地,步骤S1中,所述传感器包括光照度传感器、光功率传感器,所述光伏数据包括光照强度、光功率。具体地,步骤S2中,所述异常数据的分类依据为:冗余数据:判断多组传感器采集光伏数据的时间值是否一致,时间值不一致的光伏数据即为冗余数据;缺省数据:计算多组数据的平均测量时间间隔t,判断每行数据的测量时间与相邻行数据的测量时间的差值是否超过2t,若超过2t,则该行数据为整行缺省数据;若某行数据中单个数据的测量时间与相邻行中对应数据的测量时间的差值超过2t,则该单个数据为单项缺省数据;错误数据:光伏数据自身的变化复杂性很强,辐照度、功率等数据深受实时天气状况的影响,数据本身波动起伏较大,而且传感器故障时错误数据常常集群出现;分别计算各组数据随时间的变化率,判断每列数据的变化率是否大于前列数据变化率的1.25倍,若是,则进一步判断该列数据是否超出正常数据范围,若两个判断条件均满足,则该列数据为错误数据。进一步地,由于光伏数据基本遵循正态分布,百分之九十五的数据点在平均值前后两个标准差的范围之内,故将所述正常数据的范围定义为:μ-2σ≤x≤μ+2σ其中,x为正常数据,μ为所有数据的平均值,σ为所有数据的标准差。具体地,步骤S3中,对单组传感器测得的错误数据采用SPGP数据重构法进行数据重构的方法为:令X,Y分别为两组传感器测同一物理量得到的不同数据值序列,X序列中只有一个错误数据,设该错误数据值为变量x;Y序列中所有数据均为正常数据值;当X、Y两组数据的关联性最强时(此时,异常数据基本满足正常数据的变化趋势),错误数据x=x0,x0即为错误数据x的重构数据;计算X、Y两组数据的皮尔逊相关系数ρX,Y,即公式(1)对x求偏导,代入X、Y中的正常光伏数据,令偏导值为0,有联立公式(1)、(2)解出重构数据值x0;即,当x=x0时,X、Y两组数据的关联性最强,x0即为错误数据x重构后的数据值。进一步地,步骤S3中,所述基于三次样条插值法的数据重构法具体为:提取所有数据中表现正常的N个数据值作为f(x),将所述N个数据对应的时间序列设为区间x=[x0,xN];将区间x划分为N个等步长的子区间;设在每个子区间j=(0,1,…,N-1)内均满足三次多项式Sj(x),有Sj(x)=aj0+aj1x+aj2x2+aj3x3,j=0,1,...,N-1(3)由于N个数据均为可用正常数据,令S(xj)=f(xj),j=(0,1,...,N)(4)为保证各子区间的曲线合并为大区间时节点处光滑,令S(xj-0)=S(xj+0),j=(0,1,...,N)(5)S′(xj-0)=S′(xj+0),j=(1,2,...,N-1)(6)S″(xj-0)=S″(xj+0),j=(1,2,...,N-1)(7)令S(xj)=f(xj)=yj(8)hj=xj-xj-1(9)S″(xj)=Mjj=(0,1,...,N)(10)由于在子区间[xj,xj+1]内S(x)=Sj(x)为三次多项式,因此S″j(x)为线性函数,根据拉格朗日插值公式,有根据公式(3)~(11),可得令则公式(11)可表示为αjMj-1+2Mj+βjMj+1=cjj=(1,2,...,N-1)(13)根据光伏数据的正态分布特性,数据两端的曲线处于水平状态,有Sj(x)满足第一类边界条件,有S′(x1)=S′(xN)=0(14)联立公式(13)、(14)得到关于Mj的N+1阶线性方程组,其矩阵形式为三对角线方程组,即代入所有表现正常的光伏数据到公式(15)中,采用追赶法解出Mj,从而得到各子区间的三次多项式;再将检测到的单组错误数据代入该错误数据对应子区间的三次多项式,得到该错误数据重构后的数据值。与现有技术相比,本专利技术的有益效果是:本专利技术考虑到光伏数据自身极大的复杂性,传感器在布置时往本文档来自技高网
...

【技术保护点】
1.一种适用于太阳能光伏数据的数据清洗方法,其特征在于,包括以下步骤:S1,采集光伏数据,在相邻区域设置多组传感器采集太阳能光伏数据,得到多组强关联性数据,将不同组传感器在同一时间采集的数据在数据库中按列进行排序,将同一组传感器在不同时间采集的数据在数据库中按行进行排序;S2,挖掘所述光伏数据中的异常数据,并将所述异常数据分为三类数据,分别为:冗余数据、缺省数据和错误数据;S3,清洗异常数据,首先,删除异常数据中的冗余数据;然后,对单组传感器测得的错误数据采用SPGP数据重构法进行数据重构;最后,对数据库中整行错误数据和缺省数据采用基于三次样条插值法的数据重构法进行数据重构。

【技术特征摘要】
1.一种适用于太阳能光伏数据的数据清洗方法,其特征在于,包括以下步骤:S1,采集光伏数据,在相邻区域设置多组传感器采集太阳能光伏数据,得到多组强关联性数据,将不同组传感器在同一时间采集的数据在数据库中按列进行排序,将同一组传感器在不同时间采集的数据在数据库中按行进行排序;S2,挖掘所述光伏数据中的异常数据,并将所述异常数据分为三类数据,分别为:冗余数据、缺省数据和错误数据;S3,清洗异常数据,首先,删除异常数据中的冗余数据;然后,对单组传感器测得的错误数据采用SPGP数据重构法进行数据重构;最后,对数据库中整行错误数据和缺省数据采用基于三次样条插值法的数据重构法进行数据重构。2.根据权利要求1所述的一种适用于太阳能光伏数据的数据清洗方法,其特征在于,步骤S1中,所述传感器包括光照度传感器、光功率传感器,所述光伏数据包括光照强度、光功率。3.根据权利要求1所述的一种适用于太阳能光伏数据的数据清洗方法,其特征在于,步骤S2中,所述异常数据的分类依据为:冗余数据:判断多组传感器采集光伏数据的时间值是否一致,时间值不一致的光伏数据即为冗余数据;缺省数据:计算多组数据的平均测量时间间隔t,判断每行数据的测量时间与相邻行数据的测量时间的差值是否超过2t,若超过2t,则该行数据为缺省数据;错误数据:分别计算各组数据随时间的变化率,判断每列数据的变化率是否大于前列数据变化率的1.25倍,若是,则进一步判断该列数据是否超出正常数据范围,若两个判断条件均满足,则该列数据为错误数据。4.根据权利要求3所述的一种适用于太阳能光伏数据的数据清洗方法,其特征在于,所述正常数据范围的定义为:μ-2σ≤x≤μ+2σ其中,x为正常数据,μ为所有数据的平均值,σ为所有数据的标准差。5.根据权利要求1所述的一种适用于太阳能光伏数据的数据清洗方法,其特征在于,步骤S3中,对单组传感器测得的错误数据采用SPGP数据重构法进行数据重构的方法为:令X,Y分别为两组传感器测同一物理量得到的不同数据值序列,X序列中只有一个错误数据,设该错误数据值为变量x;Y序列中所有...

【专利技术属性】
技术研发人员:江冰肖心园胡钢
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1