The invention provides a cleaning method for operation and maintenance data of electric power communication, and more specifically relates to a data cleaning method of electric power operation and maintenance based on isolated forest algorithm and neural network. The method includes: firstly, using improved isolated forest algorithm to construct an isolated forest model iForest to solve the target problem; secondly, defining isolated forest calculation. The evaluation system of abnormal data was established by the method, and the attributes of abnormal data detected by isolated forest were predicted and corrected by training BP neural network. The invention optimizes the data cleaning method of electric power communication operation and maintenance based on isolated forest algorithm and neural network, improves the accuracy of anomaly detection and reduces the error of data correction, and provides the data cleaning program for electric power operation and maintenance in the aspects of accuracy of anomaly data location, accuracy of data correction, training time and resource occupation, etc. It has been effectively optimized.
【技术实现步骤摘要】
一种基于孤立森林算法和神经网络的电力运维数据清洗方法
本专利技术提供一种电力通信运维数据的清洗方法,更具体地,涉及一种基于孤立森林算法和神经网络的电力运维数据清洗方法。
技术介绍
随着电力通信网的蓬勃发展,电力运维数据体量越来越大,电力部门对数据可靠性的要求也越来越高。在电力运维数据的传输与存储过程中,受外界干扰与传输误差等影响,不可避免会产生噪声、数据缺失、数据错误等不良数据问题;电力数据含有多维属性且分别由不同设备获取,给数据的异常检测提出了挑战。传统的计算均值与回归分析等数据修正方式无法准确地学习整个数据集的特征与规律,特别是当数据维度较高的情况,导致了数据修正误差较大。目前,数据清洗主要包括一致性检验,错误值、缺失值和无效值的处理等机制,可采用人工神经网络算法提高数据质量。专利201610370415.7针对RFID数据公开了一种数据清洗方法,通过硬件EPC(Electronicproductcode,电子产品码)过滤器来过滤编码错误的数据,从而实现了对重复数据的清洗。但是该方法没有针对缺失值和无效值进行修正,同时由于硬件处理能力受限,不适合处理大规模属性复杂的电力运维数据;专利201510129479.3在数据仓库中基于ETL机制进行数据清洗,清洗范围大,算法执行效率高。但由于电力运维数据含有多维属性,数据体量、规模巨大,属性复杂,上述方案在清洗精度和数据质量等方面仍有不足。选择高效的数据清洗方法为电力运维数据的分析和挖掘提供了重要支撑,对电力运维综合效益的提高具有重要意义。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷,提供一种基于 ...
【技术保护点】
1.一种基于孤立森林算法和神经网络的电力运维数据清洗方法,其特征在于,包括以下步骤:S1、利用改进的孤立森林算法,构造解决目标问题的孤立森林模型iForest;S2、定义孤立森林算法对异常数据的评价体系;S3、训练学习速率自适应BP神经网络对通过孤立森林检测出的异常数据属性进行预测修正。
【技术特征摘要】
1.一种基于孤立森林算法和神经网络的电力运维数据清洗方法,其特征在于,包括以下步骤:S1、利用改进的孤立森林算法,构造解决目标问题的孤立森林模型iForest;S2、定义孤立森林算法对异常数据的评价体系;S3、训练学习速率自适应BP神经网络对通过孤立森林检测出的异常数据属性进行预测修正。2.根据权利要求1所述的一种基于孤立森林算法和神经网络的电力运维数据清洗方法,其特征在于,所述步骤S1的具体包括如下:S11、方法的开始阶段,首先将属性分组;S12、从训练数据集中随机选择ψ个样本数据点作为子采样集,并构造一棵初始iTree,将子采样集放入树的根节点;ψ为随机选择的样本数据点个数;S13、随机指定数据项的一个属性组,在当前节点数据中选择划分切割点;S14、以此切割点生成一个超平面,将当前节点的数据空间划分为两个子空间,并划分数据项;S15、递归构造新的孩子节点,直到孩子节点中只有一个数据项(无法继续切割)或该iTree已经达到初始定义好的限定高度。3.根据权利要求1所述的一种基于孤立森林算法和神经网络的电力运维数据清洗方法,其特征在于,所述的步骤S2具体包括:S21、选定测试数据x,将其代入森林中的每一棵iTree;x表示测试数据;S22、计算其落在每棵树的深度h(x),并计算所有h(x)的平均值E(h(x));其中h(x)表示测试数据点落在每棵树的深度;E(h(x))表示所有h(x)的平均值;S23、根据式(1)设置标准平均搜索长度c(ψ):c(ψ)=2H(ψ-1)-(2(ψ-1)/ψ)式(1)其中H(i)按式(2)计算:H(i)=ln(i)+Ec式(2)Ec为欧拉常数,其值为0.5772;c(ψ)表示iTree的标准平均搜索长度;S24、根据式(3)定义待测数据的异常评分s(x,ψ):s(x,ψ)表示待测数据的异常评分,异常评分值越接近1,说明数据为异常...
【专利技术属性】
技术研发人员:李星南,曾瑛,蔡毅,李伟坚,施展,亢中苗,
申请(专利权)人:广东电网有限责任公司,广东电网有限责任公司电力调度控制中心,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。