一种针对广域量测电力大数据数据质量的快速在线评估方法技术

技术编号:20623682 阅读:19 留言:0更新日期:2019-03-20 14:56
本发明专利技术公开一种针对广域量测电力大数据数据质量的快速在线评估方法,属于电力系统大数据应用领域,包括以下步骤:获取给定时段内广域量测系统的实时电力大数据;采用改进的MapReduce并行化K‑means聚类算法进行快速的预处理;采用基于KNN的快速密度峰值异常值检测算法对其进行正确性评估;再进行完整性、唯一性、准确性、一致性、有效性评估,根据评估指标Ii设计各个指标对应的评估规则Rr(r=1,2,3……n);利用层次分析法确定各评估指标的权重系数Ww;统计满足评估规则Rr(Ii)的数据个数百分比Ss,再根据得到的权重系数Ww和检测结果Ss,计算出电力大数据质量的综合评估值X。本发明专利技术解决了电力大数据质量快速评估问题,是基于WAMS的电网在线应用的基础性工作。

A Fast On-line Evaluation Method for Large Data Quality of Wide Area Electricity Measurement

The invention discloses a fast on-line evaluation method for large data quality of wide-area measurement of electric power, which belongs to the application field of large data of electric power system, including the following steps: obtaining real-time large data of wide-area measurement system in a given period of time; adopting improved MapReduce parallel K_means clustering algorithm for fast preprocessing; adopting KNN-based fast density peak anomaly Value detection algorithm is used to evaluate its correctness, then completeness, uniqueness, accuracy, consistency and validity are evaluated, and the corresponding evaluation rules Rr (r=1, 2, 3) are designed according to the evaluation index Ii. The weighting coefficients of each evaluation index are determined by analytic hierarchy process (AHP); the scores of hundreds of points of data satisfying the evaluation rule Rr (Ii) are counted, and then the comprehensive evaluation value X of the quality of large power data is calculated based on the weighting coefficients Ww and the test results Ss. The invention solves the problem of fast evaluation of large data quality of electric power, and is the basic work of on-line application of electric power network based on WAMS.

【技术实现步骤摘要】
一种针对广域量测电力大数据数据质量的快速在线评估方法
本专利技术属于电力系统大数据应用领域,公开一种针对广域量测电力大数据数据质量的快速在线评估方法。
技术介绍
在传统数据质量评估技术基础上,考虑广域量测系统电力大数据特征,评估电力大数据质量,确保获得可信度高和项目应用目标适用的电网量测大数据,对电力系统大数据的应用具有重要意义。电力行业面临着正在形成的大数据环境,大数据时代对电力行业发展提出新的挑战,但也带来新的发展机遇。近十年来,随着我国经济的快速发展,电网规模不断扩大。在“西电东送、南北互供、全国联网”的建设方针下,我国各地区电网互联程度逐渐加深,交流同步互联和交直流混合互联并存,超大规模的互联电力系统的正在逐步形成。广域量测系统(WideAreaMeasurementSystem,WAMS)是以同步向量测量技术为基础,以电力系统动态过程检测、分析和控制为目标的实时监控系统,具有异地高精度同步向量测量、高速通信和快速反应等技术特点,已在我国互联电网的动态过程实时监控领域广泛配置。面对这种海量数据的增加,多数电力部门仅使用传统的数据分析方法和简单的传统统计方法进行数据分析和数据质量评估,适用性并不好;而且由于广域量测数据量大、数据处理复杂以及数据应用的原理复杂,目前对于广域量测大数据深度挖掘分析不够、实用化的高级应用欠缺,制约了广域量测数据在电网安全运行中的应用。数据背后隐藏的深层次知识无法有效得以理解使用,相反却带来了“数据灾难”和“数据荒废”,上述问题使得实际电网中广域量测数据大量闲置,无法充分发挥其应有的价值。
技术实现思路
针对现有技术的不足,本专利技术提出了一种针对广域量测电力大数据数据质量的快速在线评估方法,在传统数据质量评估技术基础上,充分考虑了广域量测系统电力大数据特征,进行电力大数据质量评估,确保快速获得可信度高和项目应用目标适用的电网量测大数据。本专利技术采用如下技术方案:一种针对广域量测电力大数据数据质量的快速在线评估方法,包括如下步骤:步骤1:获取给定时段内广域量测系统的实时电力大数据;步骤2:采用MapReduce并行化K-means聚类算法对确定的电力大数据对象进行快速的预处理:将电力大数据集通过K-means聚类算法分类为若干小数据集,且每个小数据集中的数据对象之间具有相似性;步骤3:对经过预处理的电力大数据对象采用基于KNN的快速密度峰值异常值检测算法来进行正确性指标的评估:基于小数据集中每个样本与其他样本之间的欧氏距离来计算该样本的局部密度,并根据局部密度得到KNN距离,然后将局部密度小于预设密度阈值和KNN距离大于预设距离阈值的样本作为异常数据,并据此评估电力大数据对象的正确性;步骤4:继续对经过预处理的电力大数据对象进行评估:基于完整性、唯一性、准确性、一致性和有效性这五个评估指标建立对应的电力大数据质量评估规则,评估规则即判断数据是否符合评估要求的规则,其中完整性是检测数据是否存在缺失记录或缺失字段,唯一性是检测数据是否存在重复的记录,准确性是检测数据值的精度是否符合要求,一致性是检测同一属性数据在表达格式上是否一致,有效性是检测数据是否符合数据格式和值域范围的要求;步骤5:利用层次分析法快速确定各评估指标的权重系数:根据步骤3和4中的评估指标和评估规则,采用1-9标度法形成判断矩阵并检验判断矩阵的一致性,再对判断矩阵进行列归一化并计算每一行的平均值,得到评估指标的权重系数;步骤6:根据电力大数据质量评估规则中的每条评估规则,对经过预处理的电力大数据对象进行快速检测分析,统计满足评估规则的数据个数百分比,再根据步骤5中得到的各评估指标权重系数和检测结果,计算出电力大数据质量的综合评估值。所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤2包括以下步骤:以步骤1中得到的电力大数据对象作为聚类样本集H={h1,h2,...,hj,...,hn},其中hj为数据对象,将原始数据分成k个类别,其中k≤n,用si(i=1,2,...,k)表示在n个数据对象中选出的k个聚类中心,聚类中心si(i=1,2,...,k)是同一类别数据对象的算数平均值,即其中Ni为类i的数据对象个数,hi为类i中的数据对象;对于不属于聚类中心的数据对象,根据到每一个聚类中心的相似度即欧氏距离进行分配,然后重新计算新的聚类中心即聚类对象的均值,不断重复此过程直至标准测度函数收敛,标准测度函数为其中hj为类i中的数据对象,J为聚类样本集中所有数据的均方差之和。所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤3包括以下步骤:在步骤2中得到的每个小数据集中,计算任一样本xi与其他样本之间的欧氏距离d(xi,xj),并将计算结果按照升序排列,以对应第k个距离的样本为Nk(xi),xi的K个最近邻为:N(xi)={j∈X|d(xi,xj)≤d(xi,Nk(xi))}用N(xi)来计算xi的局部密度其中K=ρN,ρ是数据集的总样本数N的百分比;KNN距离为:其中dij为xi与xj之间的距离;异常样本为:局部密度且距离值其中,局部密度阈值为:距离阈值的定义为:其中γρ和γδ为经验参数。所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤4包括以下步骤:基于完整性评估指标建立评估规则:检验数据是否存在缺失值;基于唯一性评估指标建立评估规则:检测数据中是否存在以下情况:(1)数据表中是否存在两个相同的时间变量;(2)数据表中是否存在两个相同的统计指标名;(3)不同行或列对应的数值数据的相同个数是否超过预设阈值;基于准确性评估指标建立评估规则:预先定义记录的参考精度值即数据小数点后的位数,然后再考察数据集中各数据记录的精度是否满足要求;基于一致性评估指标建立评估规则:预先设定不同属性数据的标准表达格式,然后检测该属性下的所有数据的表达格式是否与标准表达格式一致;基于有效性评估指标建立评估规则:先统计出每一个属性数据的所有有效格式,然后再将某属性下的所有数据与有效格式逐一进行对比,检验是否符合要求;然后检查数值数据的大小是否处于预设的值域范围之内。所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤5包括以下步骤:1)根据选择的评估指标和设计的评估规则之间的关系采用1-9标度法,形成判断矩阵,所述的判断矩阵利用各评估指标之间的标度关系形成,各指标的标度则由两个元素相比的重要性来确定;2)检验判断矩阵的一致性,即检验判断矩阵中的数据在表达格式上是否一致;3)对其判断矩阵进行列归一化,即通过判断矩阵中的每一个列数据除以该列数据之和得到一个新数值,然后对归一化后的矩阵的每一行计算出平均值,得到评估指标的权重系数。所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,所述步骤6包括以下步骤:对所选定的电力大数据对象进行检测分析,统计满足评估规则的数据个数百分比Ss,再根据步骤5中得到的各评估指标权重系数Ww和检测结果Ss,计算出电力大数据质量的综合评估值X:本专利技术的技术效果在于,在传统数据质量评估技术基础上,充分考虑了广域量测系统电力大数据特征,进行电力大数据质量评估,确保快速获得可信度高和项目应用目标适用的电网量测大数据。本专利技术解决了电力大数据质量本文档来自技高网...

【技术保护点】
1.一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,包括如下步骤:步骤1:获取给定时段内广域量测系统的实时电力大数据;步骤2:采用MapReduce并行化K‑means聚类算法对确定的电力大数据对象进行快速的预处理:将电力大数据集通过K‑means聚类算法分类为若干小数据集,且每个小数据集中的数据对象之间具有相似性;步骤3:对经过预处理的电力大数据对象采用基于KNN的快速密度峰值异常值检测算法来进行正确性指标的评估:基于小数据集中每个样本与其他样本之间的欧氏距离来计算该样本的局部密度,并根据局部密度得到KNN距离,然后将局部密度小于预设密度阈值和KNN距离大于预设距离阈值的样本作为异常数据,并据此评估电力大数据对象的正确性;步骤4:继续对经过预处理的电力大数据对象进行评估:基于完整性、唯一性、准确性、一致性和有效性这五个评估指标建立对应的电力大数据质量评估规则,评估规则即判断数据是否符合评估要求的规则,其中完整性是检测数据是否存在缺失记录或缺失字段,唯一性是检测数据是否存在重复的记录,准确性是检测数据值的精度是否符合要求,一致性是检测同一属性数据在表达格式上是否一致,有效性是检测数据是否符合数据格式和值域范围的要求;步骤5:利用层次分析法快速确定各评估指标的权重系数:根据步骤3和4中的评估指标和评估规则,采用1‑9标度法形成判断矩阵并检验判断矩阵的一致性,再对判断矩阵进行列归一化并计算每一行的平均值,得到评估指标的权重系数;步骤6:根据电力大数据质量评估规则中的每条评估规则,对经过预处理的电力大数据对象进行快速检测分析,统计满足评估规则的数据个数百分比,再根据步骤5中得到的各评估指标权重系数和检测结果,计算出电力大数据质量的综合评估值。...

【技术特征摘要】
1.一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,包括如下步骤:步骤1:获取给定时段内广域量测系统的实时电力大数据;步骤2:采用MapReduce并行化K-means聚类算法对确定的电力大数据对象进行快速的预处理:将电力大数据集通过K-means聚类算法分类为若干小数据集,且每个小数据集中的数据对象之间具有相似性;步骤3:对经过预处理的电力大数据对象采用基于KNN的快速密度峰值异常值检测算法来进行正确性指标的评估:基于小数据集中每个样本与其他样本之间的欧氏距离来计算该样本的局部密度,并根据局部密度得到KNN距离,然后将局部密度小于预设密度阈值和KNN距离大于预设距离阈值的样本作为异常数据,并据此评估电力大数据对象的正确性;步骤4:继续对经过预处理的电力大数据对象进行评估:基于完整性、唯一性、准确性、一致性和有效性这五个评估指标建立对应的电力大数据质量评估规则,评估规则即判断数据是否符合评估要求的规则,其中完整性是检测数据是否存在缺失记录或缺失字段,唯一性是检测数据是否存在重复的记录,准确性是检测数据值的精度是否符合要求,一致性是检测同一属性数据在表达格式上是否一致,有效性是检测数据是否符合数据格式和值域范围的要求;步骤5:利用层次分析法快速确定各评估指标的权重系数:根据步骤3和4中的评估指标和评估规则,采用1-9标度法形成判断矩阵并检验判断矩阵的一致性,再对判断矩阵进行列归一化并计算每一行的平均值,得到评估指标的权重系数;步骤6:根据电力大数据质量评估规则中的每条评估规则,对经过预处理的电力大数据对象进行快速检测分析,统计满足评估规则的数据个数百分比,再根据步骤5中得到的各评估指标权重系数和检测结果,计算出电力大数据质量的综合评估值。2.根据权利要求1所述的一种针对广域量测电力大数据数据质量的快速在线评估方法,其特征在于,所述步骤2包括以下步骤:以步骤1中得到的电力大数据对象作为聚类样本集H={h1,h2,...,hj,...,hn},其中hj为数据对象,将原始数据分成k个类别,其中k≤n,用si(i=1,2,...,k)表示在n个数据对象中选出的k个聚类中心,聚类中心si(i=1,2,...,k)是同一类别数据对象的算数平均值,即其中Ni为类i的数据对象个数,hi为类i中的数据对象;对于不属于聚类中心的数据对象,根据到每一个聚类中心的相似度即欧氏距离进行分配,然后重新计算新的聚类中心即聚类对象的均值,不断重复此过程直至标准测度函数收敛,标准测度函数为其中hj为类i中的数据对象,J为聚类样本集中所有数据的均方差之和。3.根...

【专利技术属性】
技术研发人员:柳永妍曹孝俊汤吉鸿朱军飞杨丹左剑
申请(专利权)人:国网湖南省电力有限公司国网湖南省电力有限公司电力科学研究院国家电网有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1