一种基于LOF算法的主变油色谱数据清洗方法技术

技术编号:22000006 阅读:34 留言:0更新日期:2019-08-31 05:20
本发明专利技术公开了一种基于LOF算法的主变油色谱数据清洗方法,包括以下步骤:S1、对主变油色谱数据进行预处理;S2、将每个数据点映射为三维空间中的一个点;S3、基于LOF的思想找出数据异常点,并数据异常点进行修正;S4、重复步骤S2和步骤S3,直到所有数据点的LOF值小于给定的阈值。本发明专利技术不拘泥于公式和相关标准,而是根据数据本身的特征,不仅能够识别出数据中的异常点,也能够完成异常和缺失值的修复,同时能够通过调整阈值来适应不同严格程度的异常点标准。本发明专利技术灵活准确,应用范围较广。

A Data Cleaning Method for Main Transformer Oil Chromatography Based on LOF Algorithms

【技术实现步骤摘要】
一种基于LOF算法的主变油色谱数据清洗方法
本专利技术涉及一种基于LOF算法的主变油色谱数据清洗方法,属于电力设备数据清洗

技术介绍
变电站中的主变是电网中最重要的设备之一,其状态直接关系到电网能否安全稳定地运行。通过主变油色谱数据监测变压器的运行状态是电力系统中的一种常见手段。如何准确地识别出油色谱数据中的异常数据并对其进行修正,对后续的状态评估和数据分析至关重要。目前识别主变油色谱数据中的异常点主要依据三比值法、大卫三角形法等公式。但是依据公式识别异常点不够智能,可能与实际情况产生较大的出入,导致错判、漏判等情况出现。而且这种方法只能识别异常点,却不能对异常数据进行修正,这不利于后续的数据分析和数据挖掘。因此,有必要研究一种有效的算法对主变油色谱数据进行清洗。
技术实现思路
针对以上方法存在的不足,本专利技术提出了一种基于LOF算法的主变油色谱数据清洗方法,其能够识别出主变油色谱数据中的异常点,并对异常数据值进行修正。本专利技术解决其技术问题采取的技术方案是:本专利技术实施例提供的一种基于LOF算法的主变油色谱数据清洗方法,包括以下步骤:S1、对主变油色谱数据进行预处理;S2、将每个数据点映射为三维空间中的一个点;S3、基于LOF的思想找出数据异常点,并数据异常点进行修正;S4、重复步骤S2和步骤S3,直到所有数据点的LOF值小于给定的阈值。作为本实施例一种可能的实现方式,所述步骤S1包括以下步骤:S11、将主变油色谱数据按时间顺序进行排序;S12、采用三次样条插值方式对缺失的数据点进行补齐。作为本实施例一种可能的实现方式,所述步骤S11的具体步骤为:对同一个主变压器一段时间内的油色谱数据,将主变油色谱数据按时间进行排序,记第ti天主变油色谱数据的数据点为采集到的有效数据点个数为n,如果某天没有采集到有效数据,则认为该天的数据点缺失。作为本实施例一种可能的实现方式,所述步骤S12的具体步骤为:设为定义在[ti,ti+1]上的三次多项式,记hi=ti+1-ti;求解线性方程组:令代入三次多项式Si(t),得到在[ti,ti+1]上油色谱数据的插值函数,其中,1≤i≤n-1;对缺失数据的时间tm,tM≤tm≤tM+1,用来估计tm处的缺失数据;将时间t1和tn记为1和n,得到第1天到第n天的数据值;并将时间t1前五天的数据值分别记为x-4,x-3,x-2,x-1,x0,将tn后五天的数据分别记为xn+1,xn+2,xn+3,xn+4,xn+5。作为本实施例一种可能的实现方式,所述步骤S2的具体步骤为:对每一个数据点xi,1≤i≤n,定义将(xi,Dleft(i),Dright(i))看作三维空间中的一个点,并记为pi=(xi,Dleft(i),Dright(i))。作为本实施例一种可能的实现方式,所述步骤S3包括以下步骤:S31,赋予每个点pi一个权重wi,其中wi=|{j|pj=pi,1≤j≤n}|,即wi为重复点pi的个数,并记不重复点集D={pi|1≤i≤n};S32,分别定义并计算点p的k-距离、k-领域和k-可达距离;S33,分别定义并计算D中各个点p的k-局部可达密度和k-LOF值,并将D中k-LOF值最大的点标记为异常点;S34,修正异常点的数据值。作为本实施例一种可能的实现方式,所述步骤S32的具体步骤为:记d(p,q)为点p到点q的欧式距离,k-neighborp为距离点p最近的k个点的集合;定义:点p的k-距离为:k-dist(p)=max{d(p,q)|q∈k-neighborp}点p的k-领域为:Nk(p)={q∈D\{p}|d(p,q)≤k-dist(p)}点p到点q的k-可达距离为:reach-distk(p,q)=max{k-dist(q),d(p,q)};根据上述公式计算点p的k-距离、k-领域和k-可达距离。作为本实施例一种可能的实现方式,所述步骤S33的具体步骤为:点p的k-局部可达密度定义为:点p的k-LOF值定义为:根据上述公式计算D中各个点p的k-局部可达密度和k-LOF值,并将D中k-LOF值最大的点标记为异常点。作为本实施例一种可能的实现方式,所述步骤S34的具体步骤为:对异常点p,选取其中LOF值最小的10个点,将这10个点代表的油色谱数据的平均值作为该异常点p处的修正值。作为本实施例一种可能的实现方式,在所述步骤S34中,给定的阈值根据测试集的表现确定故意根据经验确定。本专利技术实施例的技术方案可以具有的有益效果如下:本专利技术实施例的技术方案首先对缺失的数据点用三次样条插值的方式的补齐,然后将每个数据点处的值、向左的波动和向右的波动抽象成一个三维空间中的点,并应用LOF的思想找出其中的异常点并修正,只需对已知的数据点进行学习,就可以根据数据内在的特征,识别出其中的异常点,并对异常数据值进行修正。本专利技术不拘泥于公式和相关标准,而是根据数据本身的特征,不仅能够识别出数据中的异常点,也能够完成异常和缺失值的修复,同时能够通过调整阈值来适应不同严格程度的异常点标准。因此本专利技术灵活准确,应用范围较广。与现有技术相比,本专利技术具有以下优点:1、不拘泥于公式和相关标准,而是根据数据本身的特征,识别出其中的异常点,更加灵活准确。2、不仅能够识别出数据中的异常点,同时也能够完成异常和缺失值的修复。3、能够通过调整阈值来控制异常点的识别效果,阈值越小,则异常点的标准越严苛,能够识别出越多的异常点;阈值越大,则异常点的标准越宽松,识别出越少的异常点。因此,我们能够通过调整阈值来适应不同严格程度的异常点标准。这使得本专利技术更加灵活,应用范围更广。附图说明:图1是根据一示例性实施例示出的一种基于LOF算法的主变油色谱数据清洗方法的流程图;图2为设备1的异常点识别及修复效果前后对比图;图2中三个子图分别为经三次样条插值后的原数据走势图、经本专利技术方法识别的异常点标注图、修复异常值后的数据走势图;图3为设备2的异常点识别及修复效果前后对比图;图3中三个子图分别为经三次样条插值后的原数据走势图、经本专利技术方法识别的异常点标注图、修复异常值后的数据走势图。图4为设备3的异常点识别及修复效果前后对比图;图4中三个子图分别为经三次样条插值后的原数据走势图、经本专利技术方法识别的异常点标注图、修复异常值后的数据走势图。图5为设备4的异常点识别及修复效果前后对比图;图5中三个子图分别为经三次样条插值后的原数据走势图、经本专利技术方法识别的异常点标注图、修复异常值后的数据走势图。具体实施方式下面结合附图与实施例对本专利技术做进一步说明:为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本专利技术进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。此外,本专利技术可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本专利技术省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本专利技术。图1是根据一示例性实施例示出的一种基于LOF算法的主变油色谱数据清洗方法的流程图。如图1所述,本专利技术实施例提供的一种基于LOF算本文档来自技高网...

【技术保护点】
1.一种基于LOF算法的主变油色谱数据清洗方法,其特征是,包括以下步骤:S1、对主变油色谱数据进行预处理;S2、将每个数据点映射为三维空间中的一个点;S3、基于LOF的思想找出数据异常点,并数据异常点进行修正;S4、重复步骤S2和步骤S3,直到所有数据点的LOF值小于给定的阈值。

【技术特征摘要】
1.一种基于LOF算法的主变油色谱数据清洗方法,其特征是,包括以下步骤:S1、对主变油色谱数据进行预处理;S2、将每个数据点映射为三维空间中的一个点;S3、基于LOF的思想找出数据异常点,并数据异常点进行修正;S4、重复步骤S2和步骤S3,直到所有数据点的LOF值小于给定的阈值。2.根据权利要求1所述的一种基于LOF算法的主变油色谱数据清洗方法,其特征是,所述步骤S1包括以下步骤:S11、将主变油色谱数据按时间顺序进行排序;S12、采用三次样条插值方式对缺失的数据点进行补齐。3.根据权利要求2所述的一种基于LOF算法的主变油色谱数据清洗方法,其特征是,所述步骤S11的具体步骤为:对同一个主变压器一段时间内的油色谱数据,将主变油色谱数据按时间进行排序,记第ti天主变油色谱数据的数据点为xti,采集到的有效数据点个数为n,如果某天没有采集到有效数据,则认为该天的数据点缺失。4.根据权利要求3所述的一种基于LOF算法的主变油色谱数据清洗方法,其特征是,所述步骤S12的具体步骤为:设Si(t)=xti+bi(t-ti)+ci(t-ti)2+di(t-ti)3为定义在[ti,ti+1]上的三次多项式,记hi=ti+1-ti;求解线性方程组:令代入三次多项式Si(t),得到在[ti,ti+1]上油色谱数据的插值函数,其中,1≤i≤n-1;对缺失数据的时间tm,tM≤tm≤tM+1,用来估计tm处的缺失数据;将时间t1和tn记为1和n,得到第1天到第n天的数据值;并将时间t1前五天的数据值分别记为x-4,x-3,x-2,x-1,x0,将tn后五天的数据分别记为xn+1,xn+2,xn+3,xn+4,xn+5。5.根据权利要求4所述的一种基于LOF算法的主变油色谱数据清洗方法,其特征是,所述步骤S2的具体步骤为:对每一个数据点xi,1≤i≤n,定义将(xi,Dleft(i),Dright(i))看作三维空间中的一个点,并记为pi=(xi,Dle...

【专利技术属性】
技术研发人员:杨祎秦佳峰辜超李程启林颖白德盟郑文杰朱文兵周加斌许伟伊锋高志新韩明明李龙龙
申请(专利权)人:国网山东省电力公司电力科学研究院国家电网有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1