基于大数据的电网调度自动化系统的数据质量评估方法技术方案

技术编号:21851740 阅读:32 留言:0更新日期:2019-08-14 00:36
本发明专利技术具体涉及一种基于大数据的电网调度自动化系统的数据质量评估方法,包括:获取调度系统的数据,将获取的数据根据设备的进行分类,每个设备的数据构建成样本空间X;建立的样本空间X,对样本空间X中的所有样本点p进行KNN算法进行分类,输出样本空间中可能为离群点的样本;根据建立的样本空间X,对样本空间X中的所有样本点p进行局部离群因子算法LOF算法,输出样本空间X中可能为离群点的样本;根据建立的样本空间X,对样本空间X中的样本通过INFLO算法,输出样本空间X中可能为离群点的样本;将步骤二将上述的结果进行比较,如果三次结果中相同的样本出现的次数大于等于两次,则该样本即为异常点;输出异常点的数据。

Data Quality Assessment Method of Power Grid Dispatching Automation System Based on Big Data

【技术实现步骤摘要】
基于大数据的电网调度自动化系统的数据质量评估方法
本专利技术涉及电网调度自动化系统,具体涉及一种基于大数据的电网调度自动化系统的数据质量评估方法。
技术介绍
随着通信技术、电子计算机信息技术的发展和电力生产调度自动化水平的提高。现代电力生产调度自动化系统建立在集成的、高速双向通信网络的基础上,通过先进的传感和测量技术、先进的设备技术、先进的控制方法以及先进的决策支持系统技术的应用,实现电网的可靠、安全、经济、高效、环境友好和使用安全的目标。电网调度自动化系统产生了海量数据,但是海量数据中也存在着大量的无效数据。这些无效数据产生的原因多种多样,可能由于测量设备测量精度限制、可能由于测量设备本身故障,可能由于通讯传输导致、也可能主站接收数据时产生错误。数据准确性对于后期的数据分析至关重要,错误数据或缺失数据将导致数据分析结果不正确,影响人工决策,进而影响电网的稳定运行。传统的电网中,主要采用状态评估等方式对数据的正确性进行校核,其利用了不同监测设备的相互冗余信息。但其需要准确的拓扑信息,也无法利用海量的历史数据。在现有海量数据情况下,可引入大数据技术,更加有效的改善数据质量。
技术实现思路
1、所要解决的技术问题:针对现有技术的不足,本专利技术提供一种基于大数据的电网调度自动化系统的数据质量评估方法,通过建立数据样本空间,对调度系统采集的数据采用KNN、LOF、INFLO混合算法对离群点进行甄别数据异常点,通过混合算法对数据的甄别能够高效,快速,低错误率地识别错误数据、无效数据以及丢失的数据,提升了电网调度系统的数据质量及可用性,能从海量时序样本中快速排除干扰点,提高仿真计算和状态监测等工作结果的精确度。2、技术方案:一种基于大数据的电网调度自动化系统的数据质量评估方法,包括以下步骤:步骤一:获取调度系统的数据,将获取的数据根据设备的进行分类,每个设备的数据构建成样本空间X。步骤二:根据步骤一中建立的样本空间X,对样本空间X中的所有样本点p进行KNN算法进行分类,输出样本空间中可能为离群点的样本。步骤三:根据步骤一中建立的样本空间X,对样本空间X中的所有样本点p进行局部离群因子算法LOF算法,输出样本空间X中可能为离群点的样本。步骤四:根据步骤一中建立的样本空间X,对样本空间X中的样本通过INFLO算法,输出样本空间X中可能为离群点的样本。步骤五:将步骤二到步骤四的结果进行比较,如果三次结果中相同的样本出现的次数大于等于两次,则该样本即为异常点。步骤六:输出异常点的数据。进一步的,所述步骤二中辨别离群点的过程为:通过计算样本间距离来作为各个对象之间的非相似性指标;所述距离为欧氏距离或曼哈顿距离。进一步的,所述步骤三中辨别离群点的过程为:首先计算每个样本点p与其他对象之间的欧几里得距离,对欧几里得距离进行排序后,计算每个样本点p的第k距离以及第k邻域;而后计算每个样本点p的可达密度;最后计算局部离群因子;其中如果点p的局部离群因子趋近于1,说明p的邻域点密度相近,p可能与邻域同属一簇;如果局部离群因子越小于1,说明p的密度高于其邻域点密度,p为密集点;如果局部离群因子越大于1,说明p的密度小于其邻域点密度,p越可能是异常点。进一步地,所述步骤三中辨别离群点的具体过程为:先通过样本空间中样本点p的最近k邻居与逆k邻居,构成了该数据点的影响空间;再计算样本点p的影响空间中的所有点的局部密度的均值或者对象的局部密度,即INFLO的值;如果INFLO的值趋近于1.则说明该数据点就可能是一个正常的点,如果值比较高,那么该点是异常点的概率极大。3、有益效果:本专利技术采用基于大数据离群点检测技术对调度自动化数据质量进行评估,对于离群检测有较好的效果。具体实施方式一种基于大数据的电网调度自动化系统的数据质量评估方法,包括以下步骤:步骤一:获取调度系统的数据,将获取的数据根据设备的进行分类,每个设备的数据构建成样本空间X。步骤二:根据步骤一中建立的样本空间X,对样本空间X中的所有样本点p进行KNN算法进行分类,输出样本空间中可能为离群点的样本。步骤三:根据步骤一中建立的样本空间X,对样本空间X中的所有样本点p进行局部离群因子算法LOF算法,输出样本空间X中可能为离群点的样本。步骤四:根据步骤一中建立的样本空间X,对样本空间X中的样本通过INFLO算法,输出样本空间X中可能为离群点的样本。步骤五:将步骤二到步骤四的结果进行比较,如果三次结果中相同的样本出现的次数大于等于两次,则该样本即为异常点。步骤六:输出异常点的数据。进一步的,所述步骤二中辨别离群点的过程为:通过计算样本间距离来作为各个对象之间的非相似性指标;所述距离为欧氏距离或曼哈顿距离。进一步的,所述步骤三中辨别离群点的过程为:首先计算每个样本点p与其他对象之间的欧几里得距离,对欧几里得距离进行排序后,计算每个样本点p的第k距离以及第k邻域;而后计算每个样本点p的可达密度;最后计算局部离群因子;其中如果点p的局部离群因子趋近于1,说明p的邻域点密度相近,p可能与邻域同属一簇;如果局部离群因子越小于1,说明p的密度高于其邻域点密度,p为密集点;如果局部离群因子越大于1,说明p的密度小于其邻域点密度,p越可能是异常点。进一步地,所述步骤三中辨别离群点的具体过程为:先通过样本空间中样本点p的最近k邻居与逆k邻居,构成了该数据点的影响空间;再计算样本点p的影响空间中的所有点的局部密度的均值或者对象的局部密度,即INFLO的值;如果INFLO的值趋近于1.则说明该数据点就可能是一个正常的点,如果值比较高,那么该点是异常点的概率极大。虽然本专利技术已以较佳实施例公开如上,但它们并不是用来限定本专利技术的,任何熟习此技艺者,在不脱离本专利技术之精神和范围内,自当可作各种变化或润饰,因此本专利技术的保护范围应当以本申请的权利要求保护范围所界定的为准。本文档来自技高网...

【技术保护点】
1.一种基于大数据的电网调度自动化系统的数据质量评估方法,包括以下步骤:步骤一:获取调度系统的的数据,将获取的数据根据设备的进行分类,每个设备的数据构建成样本空间X;步骤二:根据步骤一中建立的样本空间X,对样本空间X中的所有样本点p进行KNN算法进行分类,输出样本空间中可能为离群点的样本;步骤三:根据步骤一中建立的样本空间X,对样本空间X中的所有样本点p进行局部离群因子算法LOF算法,输出样本空间X中可能为离群点的样本;步骤四:根据步骤一中建立的样本空间X,对样本空间X中的样本通过INFLO算法,输出样本空间X中可能为离群点的样本;步骤五:将步骤二到步骤四的结果进行比较,如果三次结果中相同的样本出现的次数大于等于两次,则该样本即为异常点;步骤六:输出异常点的数据。

【技术特征摘要】
1.一种基于大数据的电网调度自动化系统的数据质量评估方法,包括以下步骤:步骤一:获取调度系统的的数据,将获取的数据根据设备的进行分类,每个设备的数据构建成样本空间X;步骤二:根据步骤一中建立的样本空间X,对样本空间X中的所有样本点p进行KNN算法进行分类,输出样本空间中可能为离群点的样本;步骤三:根据步骤一中建立的样本空间X,对样本空间X中的所有样本点p进行局部离群因子算法LOF算法,输出样本空间X中可能为离群点的样本;步骤四:根据步骤一中建立的样本空间X,对样本空间X中的样本通过INFLO算法,输出样本空间X中可能为离群点的样本;步骤五:将步骤二到步骤四的结果进行比较,如果三次结果中相同的样本出现的次数大于等于两次,则该样本即为异常点;步骤六:输出异常点的数据。2.根据权利要求1所述的一种基于大数据的电网调度自动化系统的数据质量评估方法,其特征在于:步骤二中辨别离群点为:通过计算样本间距离来作为各个对象之间的非相似性指标;所述距离为欧氏距离或曼哈顿距离。3.根据权利要求1所...

【专利技术属性】
技术研发人员:罗耀强张珍凤陈俊长
申请(专利权)人:南京易司拓电力科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1