System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于孤立森林对抗网络的异常数据重构方法及系统技术方案_技高网

一种基于孤立森林对抗网络的异常数据重构方法及系统技术方案

技术编号:40333602 阅读:10 留言:0更新日期:2024-02-09 14:24
本发明专利技术公开了一种基于孤立森林对抗网络的异常数据重构方法及系统,涉及异常数据重构技术领域。本发明专利技术提出一种基于孤立森林对抗网络的异常数据重构方法,通过构建孤立森林模型可以高效辨识负荷中的异常数据;并且鉴于神经网络强大的学习能力,采用GRU网络构建生成器,将引入余弦相似度和Smooth L1函数对损失函数进行改进,解决了GAN模型收敛速度慢和数据重构精度低的问题;实验结果表明,与传统GAN和KNN等多个缺失数据填补模型相比,在不同缺失方式下,CGAN的重构效果最优,并可以有效改善负荷数据集质量,从而进一步提高数据填补的精度。本发明专利技术能够充分挖掘负荷与影响因素之间的非线性关系,提高了数据分析和建模的准确性,为电力系统的运行和管理提供了有益效果。

【技术实现步骤摘要】

本专利技术涉及异常数据重构领域,特别是一种基于孤立森林对抗网络的异常数据重构方法及系统


技术介绍

1、随着通信采集技术在电力系统中应用的日益成熟,电力公司可以便捷地获取实时负荷数据。但由于多种不可抗力因素,采集的负荷数据存在异常、缺失等问题,而异常数据破坏了数据集的原始分布,同时还会造成数据冗余度不足,阻碍了负荷预测精度的提高。本专利技术提出了一种基于孤立森林对抗网络的异常数据重构方法。通过构建基于孤立森林的异常数据辨识模型,实现对数据异常点的剔除。在得到缺失数据集之后,构建基于条件生成对抗网络缺失数据重构模型,将负荷影响因素作为条件生成对抗网络的条件约束,并引入加权损失函数,提高模型的收敛速度及数据重构精度,对数据缺失点进行填补。

2、现有的数据填补方法,在异常数据辨识和缺失数据重构等方面存在一些缺陷。本专利技术方法采用孤立森林算法对负荷数据进行异常数据辨识,具有较高的准确性和效率。相比于传统的异常数据检测方法,孤立森林能够有效地识别偏离数据集整体变化范围较远的异常数据点。同时利用条件生成对抗网络对缺失数据进行填补,能够充分挖掘负荷与影响因素的非线性关系,生成更准确的负荷样本,提高数据重构的精度,相比于传统的填补方法,本方法能够更好地提高数据填补的准确性和真实性。


技术实现思路

1、鉴于现有的数据填补方法,在异常数据辨识和缺失数据重构方面存在一些存在的问题,提出了本专利技术。

2、因此,本专利技术所要解决的问题在于如何通过构建基于孤立森林的异常数据辨识模型,实现对数据异常点的剔除,构建基于条件生成对抗网络缺失数据重构模型,对数据缺失点进行填补。

3、为解决上述技术问题,本专利技术提供如下技术方案:

4、第一方面,本专利技术实施例提供了一种基于孤立森林对抗网络的异常数据重构方法,其包括,获取电网历史数据,构建并训练孤立森林模型,并采用网格搜索算法对孤立森林进行参数寻优;将负荷数据输入到孤立森林模型中进行辨识,以删除异常数据并获得缺失数据集;对原始负荷数据进行归一化处理以消除数据量纲对模型训练的影响,并将完整无异常的负荷数据划为训练集;构建基于cgan的生成器模型和判别器模型,并对生成器模型和判别器模型进行权重更新,待生成器模型与判别器模型博弈达到平衡后,保存cgan模型并更新损失函数;将缺失数据集输入到所保存的生成器模型中,输出生成的样本并对缺失数据进行填补。

5、作为本专利技术所述基于孤立森林对抗网络的异常数据重构方法的一种优选方案,其中:所述构建并训练孤立森林模型包括以下步骤:从训练集数据随机选取n个样本子集,并将样本子集输送至孤立树的根部;若样本子集中包含m个特征,则从中随机选取一个特征,并在此特征最大值与最小值之间随机生成一个数,作为分割点g;在选择特征维度后通过分割点g使孤立森林随机形成一个平面,并按某一维方向将样本子集形成的数据空间分割为两个子空间;对两个子空间进行多次迭代分割以不断形成新的数据空间,直至每个数据空间只包含一个数据点y的异常指标或此空间已经达到设定的深度;重复执行上述步骤以生成多棵孤立树;所述数据点y的异常指标的具体公式如下:

6、

7、其中,s(y,m)是数据点y的异常数据得分,e(l(y))为y在多棵树中的路径l(y)的期望值,c(m)为孤立树的平均路径长度。

8、其中,孤立树的平均路径长度c(m)的具体公式如下:

9、

10、其中,ξ为欧拉常数,m为数据空间中包含的数据点。

11、作为本专利技术所述基于孤立森林对抗网络的异常数据重构方法的一种优选方案,其中:所述对原始负荷数据进行归一化处理的具体公式如下:

12、

13、其中,an为数据归一化后的结果,amax和amin分别表示数据归一化后的结果最大值和最小值,a为数据初始值。

14、作为本专利技术所述基于孤立森林对抗网络的异常数据重构方法的一种优选方案,其中:所述构建基于cgan的生成器模型和判别器模型包括以下步骤:生成器模型由三层gru网络和一层全连接网络构成;将训练集数据重塑成批量大小、时间步长和数据维度的三维矩阵并输入gru网络;三维输入矩阵经过3层gru网络运算后,依次得到矩阵g1、g2和g3,3层gru网络的神经元数量依次设置为128、64和64;将矩阵g3输入到全连接层即可输出生成样本,并将生成样本送入到判别器;将随机噪声z和条件c组合并输入到生成器中,生成器输出生成样本g(z|c);判别器由3层cnn和1层全连接网络组成;前2层cnn分别采用32和64个5*5的卷积核,步长均设置为2,输入矩阵经2层cnn特征提取后依次得到c1和c2卷积层,第3层的cnn则采用16个3*3的卷积核,步长设置为1;在wgan-gp模型引入梯度惩罚机制,选择leakyrelu作为激活函数,全连接层输出输入矩阵判别结果;将监督学习应用到can中,cgan保留can的博弈结构,在生成器和判别器的输入中加入条件值;判别器的输入为负荷数据真实值t和条件c的组合以及生成样本g(z|c)和条件c的组合,判别器需要对生成样本与真实样本之间的分布是否相似和生成样本是否满足条件c进行判别;生成器和判别器根据判别结果来更新网络参数、损失函数和目标函数。

15、作为本专利技术所述基于孤立森林对抗网络的异常数据重构方法的一种优选方案,其中:所述损失函数的具体公式如下:

16、lg=-e(z,c)[d(g(z|c)|c)]

17、ld=-e(t,c)[d(t|c)]+e(z,c)[d(g(z|c)|c)]

18、其中,e表示对应分布的期望值,g(~)表示生成器所生成的样本,d(~)表示判别器对输入样本真假性的判别,d(g(z|c)|c)为判别器在条件c下对于生成样本g(z|c)的判别结果,d(t|c)为判别器在条件c下对于真实样本t的判别结果,g(z|c)为生成器所生成的样本,e(t,c)是对噪声t和条件c的期望。

19、所述cgan目标函数的具体公式如下:

20、

21、其中,λ为梯度惩罚系数,e表示对应分布的期望值,为判别器函数的梯度,e(t,c)是对噪声t和条件c的期望,d(g(z|c)|c)为判别器在条件c下对于生成样本g(z|c)的判别结果。

22、作为本专利技术所述基于孤立森林对抗网络的异常数据重构方法的一种优选方案,其中:所述待生成器模型与判别器模型博弈达到平衡后,保存cgan模型并更新损失函数包括以下步骤:选用wasserstein距离作为判别器损失函数,并引入梯度惩罚机制,实现真假样本集中区域及其交叉过渡区域施加lipschitz约束;smooth l1损失函数在求解过程中具有较强的鲁棒性及稳定性,并有效避免梯度爆炸,提升网络收敛速度;引入余弦相似度函数通过计算向量之间夹角的余弦值来衡量两个向量的差异性,余弦相似度对向量相似性判别具有较高的准确度,并且识别出向量的轨迹变化趋势。

23、作为本专利技术所述基于孤立森林对抗本文档来自技高网...

【技术保护点】

1.一种基于孤立森林对抗网络的异常数据重构方法,其特征在于:包括,

2.如权利要求1所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述构建并训练孤立森林模型包括以下步骤:

3.如权利要求1所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述对原始负荷数据进行归一化处理的具体公式如下:

4.如权利要求1所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述构建基于CGAN的生成器模型和判别器模型包括以下步骤:

5.如权利要求4所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述损失函数的具体公式如下:

6.如权利要求1所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述待生成器模型与判别器模型博弈达到平衡后,保存CGAN模型并更新损失函数包括以下步骤:

7.如权利要求6所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述Smooth L1损失函数的具体公式如下:

8.一种基于孤立森林对抗网络的异常数据重构系统,基于权利要求1~7任一所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:包括,

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1~7任一所述的基于孤立森林对抗网络的异常数据重构方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1~7任一所述的基于孤立森林对抗网络的异常数据重构方法的步骤。

...

【技术特征摘要】

1.一种基于孤立森林对抗网络的异常数据重构方法,其特征在于:包括,

2.如权利要求1所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述构建并训练孤立森林模型包括以下步骤:

3.如权利要求1所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述对原始负荷数据进行归一化处理的具体公式如下:

4.如权利要求1所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述构建基于cgan的生成器模型和判别器模型包括以下步骤:

5.如权利要求4所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述损失函数的具体公式如下:

6.如权利要求1所述的基于孤立森林对抗网络的异常数据重构方法,其特征在于:所述待生成器模型与判别器模型博弈达...

【专利技术属性】
技术研发人员:陈凌韩伟宋云飞杨东升李清波孙红兵石慧黄玉辉
申请(专利权)人:淮阴师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1