The invention provides a data cleaning method and system of GIS partial discharge big data system. First, establish GIS partial discharge big data system, collect data, formulate unified data format, develop conversion module, and normalize the format of heterogeneous data sources; then, through exploratory analysis, process abnormal data, and establish corresponding data types for different data types The data cleaning rule base is formed, the data is organized into uniform and accurate data sets, and the data cleaning rule base is continuously optimized; finally, the data is mined and analyzed. The method can transform the format of PD detection data and clean the data, analyze and mine the data with advanced algorithm, and improve the diagnosis accuracy of PD detection data.
【技术实现步骤摘要】
一种GIS局部放电大数据系统的数据清洗方法及系统
本专利技术涉及气体绝缘开关设备(GIS)局部放电大数据处理的
,具体涉及一种GIS局部放电大数据系统的数据清洗方法及系统。
技术介绍
随着电网规模的快速发展和电力负荷的不断增加,电气设备运行的可靠性和安全性要求也不断提高,对电气设备的绝缘性能进行状态检测也变得更有意义。对电气设备进行有效、准确的检测和评估,是状态检修和全寿命周期管理的前提,是保障电力设备安全可靠运行的基础。电力设备投入运行后,由于设计缺陷、表面污秽和接触不良等原因会引起设备发生电晕、表面局部放电现象,发生放电时故障点会产生磁、电、光、声、热等物理信号和气体浓度变化等化学信号,放电产生的各种现象是局部放电检测的依据。电力公司开展了大量气体绝缘开关设备(GIS)局部放电检测工作,包括带电检测、重症监护、在线监测、离线试验等形式,所采用的局部放电检测仪器多样、数据格式不一。局部放电检测数据部分存储在电力生产管理系统中,部分以离散的形式存储。而局部放电数据分析可以较好的反应GIS设备的绝缘性能,局部放电 ...
【技术保护点】
1.一种GIS局部放电大数据系统的数据清洗方法,其特征在于,包括以下步骤:/n(1)基于余弦建立的系统获取数据,并将获取的数据进行归一化转换;/n(2)通过探索性分析,对经过步骤(1)归一化转化后的异常数据进行处理,针对不同的数据类型建立对应的清洗规则,并形成数据清洗规则库,将数据整理为格式统一的数据集,并不断优化数据清洗规则库;数据完成清洗后,使用SVM支持向量机、GooLeNet深度学习算法对数据进行分类、学习;/n(3)通过SVM支持向量机对数据进行分类和标注,导出样本和标签数据,形成训练集和验证集;对GoogLeNet深度学习算法进行训练及验证,并优化各层参数和持续 ...
【技术特征摘要】
1.一种GIS局部放电大数据系统的数据清洗方法,其特征在于,包括以下步骤:
(1)基于余弦建立的系统获取数据,并将获取的数据进行归一化转换;
(2)通过探索性分析,对经过步骤(1)归一化转化后的异常数据进行处理,针对不同的数据类型建立对应的清洗规则,并形成数据清洗规则库,将数据整理为格式统一的数据集,并不断优化数据清洗规则库;数据完成清洗后,使用SVM支持向量机、GooLeNet深度学习算法对数据进行分类、学习;
(3)通过SVM支持向量机对数据进行分类和标注,导出样本和标签数据,形成训练集和验证集;对GoogLeNet深度学习算法进行训练及验证,并优化各层参数和持续训练,当达到设定阈值时,结束训练。
2.根据权利要求1所述的一种GIS局部放电大数据系统的数据清洗方法,其特征在于,步骤(2)所述的异常数据包括缺失值、异常值和重复值。
3.根据权利要求1所述的一种GIS局部放电大数据系统的数据清洗方法,其特征在于,所述步骤(2)的实现过程如下:
利用Python科学计算库进行数据初步的探索,包括对数据类型、缺失值、数据集规模及各特征下的数据分布情况的分析,并利用绘图方法进行直观的观察,获取数据的基本属性与分布情况,通过单变量分析与多变量分析,初步探索数据集中各特征之间的关系,依据特征关系,确定数据的各属性重要程度,根据属性的重要程度计算缺失率,制定清洗规则;
将数据属性的重要程度划分为“重要”和“一般”两种,通过Pandas的多种方法获取重要属性的缺失值,计算缺失率,当缺失率≥60%时,删除该属性;当60%>缺失率≥30%时,根据数据分布情况简单填充;当缺失率<30%时,采用插补法与建模法进行补充;
异常值使用原则,查找测定值中与平均值的偏差超过3倍标准差的值,数据服从正态分布时,距离平均值之外的数据进行删除,如下式:
去重处理将数据集记录按一定规则排序,计算相似度,利用Duplicated方法进行判断,将重复的数据进行删除处理;
数据清洗规则制定后,将清洗规则进行信息化,存储到清洗库中,使用信息化手段进行清洗;结合GIS局部放电检测数据的业务需求,建立数据清洗规则库,使用数据清洗模块根据规则对数据进行业务层面的过滤,同时根据过滤的结果,不断优化数据清洗规则库。
4.根据权利要求1所述的一种GIS局部放电大数据系统的数据清洗方法,其特征在于,所述步骤(3)包括以下步骤:
(31)通过SVM支持向量机对数据进行分类和标注,通过核函数φ:x→H将数据从输入空间转变到特征空间,以最优超平面wφTφ(x)+b=0将数据分类,如下式:
其中,w为权重向量,a、b为需要求解的向量,y为真实标签,xi和x为输入样本,K(xi,x)为替代xi和x内积运算的核函数;基于以上分类方法,定义局部放电故障的基础类型,形成标签库,根据SVM支持向量机的分类结果对数据进行逐一标注;
(32)将步骤(31)所述的标注后的样本数据,利用深度学习人工智能算法对数据进行学习:将GIS局部放电数据以“图谱+标签”的形式导出训练库和验证库,利用GoogLeNet深度学习算法进行训练,用验证库验证诊断模型的准确率,如准确率低于设定阈值,...
【专利技术属性】
技术研发人员:杨景刚,贾骏,胡成博,刘洋,徐阳,张照辉,路永玲,黄成军,
申请(专利权)人:国网江苏省电力有限公司电力科学研究院,国家电网有限公司,上海交通大学,东南大学,江苏省电力试验研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。