全网域电子式互感器高频度计量数据甄别及数据处理方法技术

技术编号:21298905 阅读:27 留言:0更新日期:2019-06-12 07:45
本发明专利技术公开了一种全网域电子式互感器高频度计量数据甄别及数据处理方法,采用拉伊达准则与聚类分析方法融合的方式进行高频度计量数据甄别,对异常数据进行筛选和剔除;基于高频度计量数据,采用Spark离线并行计算方式进行高频度计量数据的甄别;采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。本发明专利技术通过采用高效的数据甄别算法,有效地筛选掉高频计量数据中的无用数据,为进一步数据分析提供了良好的数据基础;采用Spark并行计算技术,在速度上有极大的提升,有效提高了高频度计量数据的甄别效率;对筛选后的高频度计量数据采用基于HDFS的分布式运行数据存储,提高了数据存储及访问效率。

High Frequency Measurement Data Screening and Data Processing Method for All-Network Electronic Transformers

The invention discloses a method for high frequency measurement data screening and data processing of full network electronic transformer, which adopts the method of combining Laida criterion and clustering analysis method to screen and eliminate abnormal data, and adopts Spark off-line parallel calculation method to screen high frequency measurement data based on high frequency measurement data. Distributed running data storage mode in HDFS is used to store the screened data. The invention effectively filters out the useless data in the high-frequency measurement data by adopting an efficient data screening algorithm, which provides a good data basis for further data analysis; adopts Spark parallel computing technology, which greatly improves the speed and effectively improves the screening efficiency of high-frequency measurement data; and adopts HDFS-based distribution for the screened high-frequency measurement data. Running data storage improves the efficiency of data storage and access.

【技术实现步骤摘要】
全网域电子式互感器高频度计量数据甄别及数据处理方法
本专利技术涉及一种全网域电子式互感器高频度计量数据甄别及数据处理方法,属于电子式电流互感器智能应用

技术介绍
2010年,为加快智能电网建设步伐,国家电网公司启动了智能变电站“四确保一争取”工程,江苏西泾220kV变电站、四川永昌110kV变电站、延安750kV变电站等智能变电站,在国内首次全站均采用电子式互感器。2016年,国网公司计划在3年内建成投运新一代智能变电站500座,智能变电站建设进一步加快,电子式互感器逐步进入大规模应用阶段。电子式互感器的采样频率高达4kHz,每一个合并单元每天约产生86GB的数据,按照典型220kV智能变电站20个间隔计算,每天约1.7TB数据,每年约有620TB数据,以现有的智能变电站实际情况而言,将这些数据进行采集、存储的成本高、难度大,因此需要一种有效的数据甄别及数据处理方法对全网域电子式互感器大数据进行前期处理,以提高数据分析效率,同时降低系统的运行维护成本。
技术实现思路
本专利技术的目的,在于提供一种全网域电子式互感器高频度计量数据甄别及数据处理方法,通过提出高频度计量数据甄别及数据方法,有效的提高全网域电子式互感器高频度计量数据的预处理效率,从而为之后的计量数据分析奠定数据基础。为了达成上述目的,本专利技术的解决方案是:一种全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,包括以下步骤:步骤1:采用拉伊达准则与聚类分析方法融合的方式进行高频度计量数据甄别,对异常数据进行筛选和剔除;步骤2:基于高频度计量数据,采用Spark离线并行计算方式进行高频度计量数据的甄别;步骤3:采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。步骤1中,包括以下步骤:步骤11,采用拉伊达准则进行异常数据的筛选和剔除;步骤12,再使用基于聚类分析的方法对数据进行再次甄别,通过检查数据对象的主要特征和对其进行聚类分析来确定离群点。步骤11具体为:在相同条件下获得一系列测量数据x1,x2.....xn,其算术平均值为其中,n为数据个数;按贝塞尔公式计算出实验标准差s:若某个可疑值xd与n个数据的算术平均值之差的绝对值大于等于3s时,判定为异常值,即:步骤12具体为:首先对第i个数据对象ai,1≤i≤n的m个属性赋值量化为pit,1≤t≤m,采用欧氏距离法计算任意两个数据对象ai和aj之间的相异度表示为根据相异度大小把n个数据进行聚成k个类,其中包括数据点最少的集合Ai中包含的数据点即为离群点。步骤2中,包括以下步骤:步骤21,基于Spark并行计算框架实例化数据甄别所需的高频计量数据成为RDD对象,将数据保存在内存中;步骤22,构建spark任务运算机制,该运算机制为RDD对象任务分解计算与汇总输出,最后得到数据甄别的结果。步骤22构建的spark任务运算机制具体为:将封装好的RDD对象任务分解成若干个可供工作节点计算的阶段stage;在申请到了作业执行所需的资源之后,驱动Driver进程开始调度和执行数据甄别操作;驱动Driver进程将数据甄别进程作业分拆为多个阶段stage,每个阶段stage执行一部分数据甄别工作,并为每个阶段stage创建一批作业task,然后将这些作业task分配到各个执行器Executor进程中执行;一个阶段stage的所有作业task都执行完毕之后,在各个节点本地的磁盘文件中写入计算中间结果,然后驱动Driver进程调度运行下一个阶段stage;下一个阶段stage的作业task的输入数据就是上一个阶段stage输出的中间结果;如此循环往复,直到计算完所有的数据,得到数据甄别的结果。步骤3中,包括以下步骤:构建虚拟情况下的HDFS分布式文件存储系统,包含3个数据存储节点及1个管理节点;选择应用点的计量设备,基于MOBUS协议读取高频度计量数据进行关系型数据库写入操作,通过Sqoop工具进行各个应用点数据整合,实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。一种全网域电子式互感器高频度计量数据甄别及数据处理方法,具体为在高频度计量数据甄别算法方面采用拉伊达准则(3σ准则)与聚类分析方法融合的方式对异常数据进行筛选和剔除,以提高数据甄别的准确性;采用Spark并行计算技术实现高频度计量数据的筛选和剔除,以提高数据处理速度;采用基于HDFS的分布式运行数据存储技术对甄别后的数据进行存储。本专利技术的有益效果为:(1)本专利技术通过采用高效的数据甄别算法,有效地筛选掉高频计量数据中的无用数据,为进一步数据分析提供了良好的数据基础;(2)本专利技术在进行数据甄别时采用Spark并行计算技术,与传统的串行计算技术相比在速度上有极大的提升,有效提高了高频度计量数据的甄别效率;(3)本专利技术对筛选后的高频度计量数据采用基于HDFS的分布式运行数据存储,与传统存储技术相比有效的提高了数据存储及访问效率。附图说明图1是本专利技术的整体流程示意图;图2是本专利技术Spark并行计算的流程图;图3是本专利技术高频计量数据存储的流程图。具体实施方式下面结合图1、图2和图3对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。(1)高频度计量数据甄别算法下面对高频度计量数据甄别算法进行介绍,本算法采用拉伊达准则(3σ准则)与聚类分析方法融合的方式进行数据甄别。首先,采用拉伊达准则(3σ准则)进行异常数据的筛选和剔除。在相同条件下获得的一系列测量数据x1,x2.....xn,其算术平均值为其中,n为数据个数;按贝塞尔公式计算出实验标准差s:若某个可疑值xd与n个数据的算术平均值之差的绝对值大于等于3s时,判定为异常值,即:其次,在完成该算法数据甄别的基础上再使用基于聚类分析的方法对数据进行再次甄别,以提高数据的准确性。基于聚类分析的方法是通过检查数据对象的主要特征和对其进行聚类分析来确定离群点。主要步骤是首先对第i个数据对象ai,1≤i≤n的m个属性赋值量化为pit,1≤t≤m,可采用欧氏距离法计算任意两个数据对象ai和aj之间的相异度可表示为根据相异度大小把n个数据进行聚成k个类,例如,A1,A2,...,AK,其中包括数据点最少的集合Ai中包含的数据点就可以理解为是离群点。(2)Spark并行计算基于海量的高频度计量数据,采用Spark离线计算的方式进行数据甄别。首先,基于Spark并行计算框架实例化数据甄别所需的高频计量数据成为RDD对象,RDD(ResilientDistributedDatasets))为弹性分布式数据集,是分布式内存的对象,将数据保存在内存中且能极大地提高运算中间结果读写性能。其次,构建spark任务运算机制。该运算机制为RDD对象任务分解计算与汇总输出。具体地,封装好的RDD对象计算任务分解成若干个可供工作节点计算的stage(阶段)。在申请到了作业执行所需的资源之后,Driver(驱动)进程就会开始调度和执行数据甄别操作。Driver进程会将数据甄别进程作业分拆为多个stage,每个stage执行一部分数据甄别工作,并为每个stage创建一批task(作业),然后将这些task分配到各个Executor(执行器)进程中执行。tas本文档来自技高网...

【技术保护点】
1.一种全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,包括以下步骤:步骤1:采用拉伊达准则与聚类分析方法融合的方式进行高频度计量数据甄别,对异常数据进行筛选和剔除;步骤2:基于高频度计量数据,采用Spark离线并行计算方式进行高频度计量数据的甄别;步骤3:采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。

【技术特征摘要】
1.一种全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,包括以下步骤:步骤1:采用拉伊达准则与聚类分析方法融合的方式进行高频度计量数据甄别,对异常数据进行筛选和剔除;步骤2:基于高频度计量数据,采用Spark离线并行计算方式进行高频度计量数据的甄别;步骤3:采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。2.根据权利要求1所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤1中,包括以下步骤:步骤11,采用拉伊达准则进行异常数据的筛选和剔除;步骤12,再使用基于聚类分析的方法对数据进行再次甄别,通过检查数据对象的主要特征和对其进行聚类分析来确定离群点。3.根据权利要求2所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤11具体为:在相同条件下获得一系列测量数据x1,x2.....xn,其算术平均值为其中,n为数据个数;按贝塞尔公式计算出实验标准差s:若某个可疑值xd与n个数据的算术平均值之差的绝对值大于等于3s时,判定为异常值,即:4.根据权利要求3所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤12具体为:首先对第i个数据对象ai,1≤i≤n的m个属性赋值量化为pit,1≤t≤m,采用欧氏距离法计算任意两个数据对象ai和aj之间的相异度表示为根据相异度大小把n个数据进行聚成k个类,其中包括数据点最少的集合Ai中包含的数据点即为离群点。5.根据权利要求1所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤2中,包括以下步骤:步骤21...

【专利技术属性】
技术研发人员:寇英刚范洁陈刚杨世海李志新卢树峰徐敏锐陈文广陈飞陆子刚吴桥黄道程含渺陈晶李志立
申请(专利权)人:国网江苏省电力有限公司电力科学研究院国家电网有限公司国网江苏省电力有限公司福建亿榕信息技术有限公司江苏省电力试验研究院有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1