一种基于孤立森林算法和神经网络的电力运维数据清洗方法技术

技术编号:19388888 阅读:34 留言:0更新日期:2018-11-10 02:01
本发明专利技术提供一种电力通信运维数据的清洗方法,更具体地,涉及一种基于孤立森林算法和神经网络的电力运维数据清洗方法,包括:首先利用改进的孤立森林算法,构造解决目标问题的孤立森林模型iForest;然后定义孤立森林算法对异常数据的评价体系;通过训练BP神经网络对通过孤立森林检测出的异常数据属性进行预测修正。本发明专利技术针对基于孤立森林算法和神经网络的电力通信运维数据清洗方法进行优化,提高了异常检测精确度并降低数据修正误差,为电力运维数据清洗程序在异常数据定位准确性、数据修正准确率、训练时间和资源占用等方面都得到了有效的优化。

A data cleaning method for power operation and maintenance based on isolated forest algorithm and neural network

The invention provides a cleaning method for operation and maintenance data of electric power communication, and more specifically relates to a data cleaning method of electric power operation and maintenance based on isolated forest algorithm and neural network. The method includes: firstly, using improved isolated forest algorithm to construct an isolated forest model iForest to solve the target problem; secondly, defining isolated forest calculation. The evaluation system of abnormal data was established by the method, and the attributes of abnormal data detected by isolated forest were predicted and corrected by training BP neural network. The invention optimizes the data cleaning method of electric power communication operation and maintenance based on isolated forest algorithm and neural network, improves the accuracy of anomaly detection and reduces the error of data correction, and provides the data cleaning program for electric power operation and maintenance in the aspects of accuracy of anomaly data location, accuracy of data correction, training time and resource occupation, etc. It has been effectively optimized.

【技术实现步骤摘要】
一种基于孤立森林算法和神经网络的电力运维数据清洗方法
本专利技术提供一种电力通信运维数据的清洗方法,更具体地,涉及一种基于孤立森林算法和神经网络的电力运维数据清洗方法。
技术介绍
随着电力通信网的蓬勃发展,电力运维数据体量越来越大,电力部门对数据可靠性的要求也越来越高。在电力运维数据的传输与存储过程中,受外界干扰与传输误差等影响,不可避免会产生噪声、数据缺失、数据错误等不良数据问题;电力数据含有多维属性且分别由不同设备获取,给数据的异常检测提出了挑战。传统的计算均值与回归分析等数据修正方式无法准确地学习整个数据集的特征与规律,特别是当数据维度较高的情况,导致了数据修正误差较大。目前,数据清洗主要包括一致性检验,错误值、缺失值和无效值的处理等机制,可采用人工神经网络算法提高数据质量。专利201610370415.7针对RFID数据公开了一种数据清洗方法,通过硬件EPC(Electronicproductcode,电子产品码)过滤器来过滤编码错误的数据,从而实现了对重复数据的清洗。但是该方法没有针对缺失值和无效值进行修正,同时由于硬件处理能力受限,不适合处理大规模属性复杂的电力运维数据;专利201510129479.3在数据仓库中基于ETL机制进行数据清洗,清洗范围大,算法执行效率高。但由于电力运维数据含有多维属性,数据体量、规模巨大,属性复杂,上述方案在清洗精度和数据质量等方面仍有不足。选择高效的数据清洗方法为电力运维数据的分析和挖掘提供了重要支撑,对电力运维综合效益的提高具有重要意义。
技术实现思路
本专利技术为克服上述现有技术所述的至少一种缺陷,提供一种基于孤立森林算法和神经网络的电力运维数据清洗方法,本方法改善了孤立森林算法的分支步骤,提高了孤立森林模型的效率和准确性,使学习速率随着网络的变化趋势自适应调整,改善BP神经网络的性能。此方法在异常数据定位准确性、数据修正准确率、训练时间和资源占用等方面都得到了有效的优化。为解决上述技术问题,本专利技术的技术方案如下:一种基于孤立森林算法和神经网络的电力运维数据清洗方法,其特征在于,包括以下步骤:S1、利用改进的孤立森林算法,构造解决目标问题的孤立森林模型iForest;S2、定义孤立森林算法对异常数据的评价体系;S3、训练学习速率自适应BP神经网络对通过孤立森林检测出的异常数据属性进行预测修正。作为优选,所述步骤S1的具体包括如下:S11、方法的开始阶段,首先将属性分组;S12、从训练数据集中随机选择ψ个样本数据点作为子采样集,并构造一棵初始iTree,将子采样集放入树的根节点;ψ为随机选择的样本数据点个数;S13、随机指定数据项的一个属性组,在当前节点数据中选择划分切割点;S14、以此切割点生成一个超平面,将当前节点的数据空间划分为两个子空间,并划分数据项;S15、递归构造新的孩子节点,直到孩子节点中只有一个数据项(无法继续切割)或该iTree已经达到初始定义好的限定高度。作为优选,所述的步骤S2具体包括:S21、选定测试数据x,将其代入森林中的每一棵iTree;x表示测试数据;S22、计算其落在每棵树的深度h(x),并计算所有h(x)的平均值E(h(x));其中h(x)表示测试数据点落在每棵树的深度;E(h(x))表示所有h(x)的平均值;S23、根据式(1)设置标准平均搜索长度c(ψ):c(ψ)=2H(ψ-1)-(2(ψ-1)/ψ)式(1)其中H(i)按式(2)计算:H(i)=ln(i)+Ec式(2)Ec为欧拉常数,其值为0.5772;c(ψ)表示iTree的标准平均搜索长度;S24、根据式(3)定义待测数据的异常评分s(x,ψ):s(x,ψ)表示待测数据的异常评分,异常评分值越接近1,说明数据为异常数据的可能性越大。作为优选,所述的步骤S3具体包括:S31、随机选取数据集中小批量的数据样本,即输入向量与输出期望值的组合,代入神经网络;S32、逐层进行前向传播过程,根据式(4)和式(5)计算神经网络各层的激活值:其中W表示BP神经网络中的权值参数,表示第l层第j单元与第l+1层第i单元之间的权值参数;b:BP神经网络中的阈值参数,表示第l+1层第i单元的偏置;f表示激活函数,此处采用ELU(ExponentialLinearUnits)函数,优点是计算简便,而且可以防止在后续计算误差梯度时导致的梯度消失问题,μ是ELU函数的幅度参数,可以在实际操作中灵活调整,一般取(0,1),第l层第i单元的激活值,通过此种方式逐层计算,直到得出神经网络的输出值hW,b(x);S33、根据式(6)计算期望值与实际输出的误差:其中,hW,b(x)表示神经网络经过前向传播取得的输出值,y表示期望值,W和b分别表示权值矩阵与阈值矩阵,J表示误差;S34、根据式(7)计算整体代价函数,若函数收敛到全局极小值则结束,否则转S35;其中,L表示神经网络的整体代价函数,m表示样本数量;S35、进行反向传播过程,反向传播的过程是通过梯度下降算法调整神经网络各层的参数,不断使代价函数减小,首先计算各神经元的误差,并根据式(8)求出误差梯度:其中,表示代价函数对权值参数的误差梯度,通过链式求导法则从输出层逐层向前推导,的推导关系已由式(4)给出,不予赘述,求阈值参数的误差梯度的方法同理;S36、判断梯度变化趋势,自适应调整神经网络的学习速率,如果相邻两次梯度调整为同方向,则根据式(9)增大学习速率,如果相邻两次梯度调整为相反方向,则说明梯度变化波动较大,根据式(10)减小学习速率:其中,αk+1表示k+1时刻神经网络的学习速率,用于控制神经网络反向传播过程中梯度变化的速度,αk表示k时刻神经网络的学习速率,和分别表示k时刻和k-1时刻计算的梯度值,除此之外引入动量因子η,取值为(0,1),作为梯度变化的阻尼项,用于减少由于相邻两个时刻梯度变化差别过大而导致的振荡,使学习速率的自适应变化更加安全稳定;S37、根据式(11)和式(12)的梯度下降算法更新权值参数和阀值参数,α表示当前学习速率,然后返回S31。与现有技术相比,有益效果是:(1)在异常数据检测阶段,考虑到电力元数据各属性之间存在相关性,本算法首先改进了孤立森林模型中孤立树(IsolationTree)的构造方式,使之对属性的相关性更加敏感,改善了孤立森林算法的分支步骤,提高了孤立森林模型的效率和准确性。(2)在预测修正数据阶段,本算法根据梯度变化的趋势自动调节学习速率,使学习速率不断向最合适的数值调整,在保证梯度变化稳定的同时,大幅度提高收敛速度,减少了网络开销,解决了传统BP神经网络算法训练后期收敛过于缓慢的问题,还使网络的收敛曲线更加稳定。该方法构造孤立森林对训练数据集的特征进行提取,并检测出数据集中的异常数据,再使用改进的BP神经网络模型对异常数据处进行预测修改。使得基于改进方案的电力运维数据清洗程序在异常数据定位准确性、数据修正准确率、训练时间等方面都得到有效的优化。附图说明图1是本专利技术一种基于孤立森林算法和神经网络的电力运维数据清洗方法的流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中本文档来自技高网...

【技术保护点】
1.一种基于孤立森林算法和神经网络的电力运维数据清洗方法,其特征在于,包括以下步骤:S1、利用改进的孤立森林算法,构造解决目标问题的孤立森林模型iForest;S2、定义孤立森林算法对异常数据的评价体系;S3、训练学习速率自适应BP神经网络对通过孤立森林检测出的异常数据属性进行预测修正。

【技术特征摘要】
1.一种基于孤立森林算法和神经网络的电力运维数据清洗方法,其特征在于,包括以下步骤:S1、利用改进的孤立森林算法,构造解决目标问题的孤立森林模型iForest;S2、定义孤立森林算法对异常数据的评价体系;S3、训练学习速率自适应BP神经网络对通过孤立森林检测出的异常数据属性进行预测修正。2.根据权利要求1所述的一种基于孤立森林算法和神经网络的电力运维数据清洗方法,其特征在于,所述步骤S1的具体包括如下:S11、方法的开始阶段,首先将属性分组;S12、从训练数据集中随机选择ψ个样本数据点作为子采样集,并构造一棵初始iTree,将子采样集放入树的根节点;ψ为随机选择的样本数据点个数;S13、随机指定数据项的一个属性组,在当前节点数据中选择划分切割点;S14、以此切割点生成一个超平面,将当前节点的数据空间划分为两个子空间,并划分数据项;S15、递归构造新的孩子节点,直到孩子节点中只有一个数据项(无法继续切割)或该iTree已经达到初始定义好的限定高度。3.根据权利要求1所述的一种基于孤立森林算法和神经网络的电力运维数据清洗方法,其特征在于,所述的步骤S2具体包括:S21、选定测试数据x,将其代入森林中的每一棵iTree;x表示测试数据;S22、计算其落在每棵树的深度h(x),并计算所有h(x)的平均值E(h(x));其中h(x)表示测试数据点落在每棵树的深度;E(h(x))表示所有h(x)的平均值;S23、根据式(1)设置标准平均搜索长度c(ψ):c(ψ)=2H(ψ-1)-(2(ψ-1)/ψ)式(1)其中H(i)按式(2)计算:H(i)=ln(i)+Ec式(2)Ec为欧拉常数,其值为0.5772;c(ψ)表示iTree的标准平均搜索长度;S24、根据式(3)定义待测数据的异常评分s(x,ψ):s(x,ψ)表示待测数据的异常评分,异常评分值越接近1,说明数据为异常...

【专利技术属性】
技术研发人员:李星南曾瑛蔡毅李伟坚施展亢中苗
申请(专利权)人:广东电网有限责任公司广东电网有限责任公司电力调度控制中心
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1