一种用电采集数据缺失值填充方法、系统及装置制造方法及图纸

技术编号:30271856 阅读:18 留言:0更新日期:2021-10-09 21:28
本发明专利技术公开了一种用电采集数据缺失值填充方法、系统及装置,所述方法包括:利用平均值

【技术实现步骤摘要】
一种用电采集数据缺失值填充方法、系统及装置


[0001]本专利技术属于配电网控制与信息科学的交叉领域,具体涉及一种用电采集数据缺失值填充方法、系统及装置。

技术介绍

[0002]随着电网系统信息化和数据化程度的提高以及用户用电采集数据的迅速增加,与人们各方面息息相关的电力能源的地位也变得越来越重要。目前,电网公司实现了电力数据高频采集的功能,并且为了更好地实现对这些数据的管理和分析,电力企业普遍建立了统一、可复用的大数据中台。通过对用电采集数据进行数据分析可以实现对电网状态的智能感知,保障电力系统的安全平稳运行又能提高电网企业的经济效益。
[0003]然而,电网系统在收集用电采集数据时总是因为一些因素导致某些用电采集数据的缺失。不对缺失数据采取措施,可能会导致在后续用电采集数据的数据分析出现不好的影响。如果直接删除缺失的用电采集数据,那么会造成资源的浪费,减少隐藏在这些缺失数据中有价值的信息,甚至有可能会影响结果分析的正确性。因此,对用电采集数据进行填充是很有必要的。

技术实现思路

[0004]本专利技术的目的在于提供一种用电采集数据缺失值填充方法、系统及装置,为了避免用电采集数据中的异常数据对训练模型的不利影响,对样本数据的异常值进行了检测进行删除处理。为了填充用电采集数据中的缺失数据,用训练好的降噪自编码器模型去重构原始数据,从而用重构数据填充缺失值,并且模型中加入了新的正则化项,防止模型过拟合,提高模型的性能。其次,为了获得较佳的噪声衰减比,噪声值的比值设置为前一层的一半。最终,为了提高填充数据的精确性,通过标准差来对填充的数据值进行校正。
[0005]为实现上述目的,本专利技术提供一种用电采集数据缺失值填充方法、系统及装置。所述方法首先对用电采集数据利用平均值

方差法检测用电采集数据中的异常值,然后将异常的用电采集数据删除;接着利用用电采集数据去训练降噪自编码器模型,基于训练好的降噪自编码器网络模型去重构原始的用电样本数据,利用重构数据来填充缺失的用电采集样本数据;防止模型过拟合,提出了新的Depreciation

FourOrder正则化项;为了获得较佳的噪声衰减比,根据网络层的单元数降低噪声水平;然后,结合k

means聚类方法、邻近数据点到类簇中心的平均距离并利用数据的标准差来矫正填充的数据值。最终,通过系统和装置来完成上述的功能。
[0006]本专利技术提供一种用电采集数据缺失值填充方法,包括如下步骤:步骤1:获取异常值处理后的用电采集数据;步骤2:基于预先训练的降噪自编码器模型得到原始数据的重构数据,降噪自编码器模型通过以下步骤训练得到:将缺失的值全部置零,并引入一个损坏过程,随机对原始输入数据进行损坏;
利用编码网络对损坏后的数据进行训练,转换为相对原始数据低维度隐含变量;利用解码网络将前面得到的低维度隐含变量重构得到原始维度的输入变量;为了防止过拟合,模型中提出一种Depreciation

FourOrder正则化方法;步骤3:重构数据被用来填充用电采集数据中缺失的部分,作为临时的填充值,利用缺失数据的标准差校正填充的重构数据,得到最终的填充值。
[0007]进一步的,步骤1中所述异常值处理为平均值

方差法检测用电采集数据中的异常值,并将异常的用电采集数据删除,步骤如下:首先,先计算用电采集数据的平均值,假设用电采集数据向量用表示,那么用电采集数据平均值计算公式如下所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中, (i=1,2,3,...n)表示第i条用电采集数据;表示用电采集数据的期望,表示用电采集数据的平均值,用电采集数据的期望值和平均值相等。
[0008]接着,计算用电采集数据的方差向量,假设方差向量用表示,其中表示的方差,其计算公式如下所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)然后,用电采集数据向量中的n条数据分别减平均值并对结果取绝对值,计算得到n个非零实数,取其中最大非零实数定义为最大偏差;最后用方差向量除以这一最大偏差,得到一新的向量,求得该向量的模d;如果用电采集数据的模大于d,那么该条用电采集数据为正常的数据,否则为异常的数据。
[0009]进一步的,步骤2中所述降噪自编码器模型训练的具体步骤如下:

输入的用电采集数据中采样一个样本;

降噪自编码器引入一个损坏过程,表示样本产生损坏样本的概率;然后,从损坏过程中采样一个损坏样本;

将作为训练样本去重构原始输入的样本数据的分布;编码过程的数学表达式如公式(3)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,表示编码函数,表示编码函数的参数,表示维的输入向量,表示经过编码器处理后提取到的维的隐含特征向量,并且;解码过程的数学表达式如公式(4)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
其中,表示解码器根据隐含特征向量解码得出的重构向量,并且其维度与原始的输入向量的维度一致,表示解码函数,表示解码函数的参数;降噪自编码器的无监督训练过程是不断调整编码函数的参数和解码函数的参数来最小化损失函数,其损失函数的表达式如公式(5)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,表示解码器根据隐含特征向量解码得出的重构向量,表示训练样本的平均重构误差,表示训练样本的总数目,表示原始向量和重构向量之间的差;编码函数和解码函数采用的均为非线性激活函数,编码函数和解码函数的表达式如公式(6)、(7)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)则公式(4)可改写为如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中,表示权重矩阵,表示权重矩阵的转置,表示编码函数的偏置向量,表示解码函数的偏置向量,s
f
表示编码函数的映射,s
g
表示解码函数的映射;原始向量和重构向量之间的差如公式(9)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)解码和编码网络都采用LSTM;其次,根据层的单元数降低噪声水平,噪声值的比值设置为前一层的一半;接着,在模型中引入一种Depreciation

FourOrder正则化方法,加入正则化项的目标函数表达式被更新为如公式(10)所示:
ꢀꢀꢀꢀꢀꢀꢀ
(10)其中,表示惩罚参数一,表示惩罚参数二,表示权重系数。
[0010]进一步的,步骤3包括以下步骤:将降噪自编码器重构得到的变量值填充到相应的缺本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用电采集数据缺失值填充方法,其特征在于:包括如下步骤:步骤1:获取异常值处理后的用电采集数据;步骤2:基于预先训练的降噪自编码器模型得到原始数据的重构数据,降噪自编码器模型通过以下步骤训练得到:将缺失的值全部置零,并引入一个损坏过程,随机对原始输入数据进行损坏;利用编码网络对损坏后的数据进行训练,转换为相对原始数据低维度隐含变量;利用解码网络将前面得到的低维度隐含变量重构得到原始维度的输入变量;为了防止过拟合,模型中提出一种Depreciation

FourOrder正则化方法;步骤3:重构数据被用来填充用电采集数据中缺失的部分,作为临时的填充值,利用缺失数据的标准差校正填充的重构数据,得到最终的填充值。2.根据权利要求1所述的一种用电采集数据缺失值填充方法,其特征在于:步骤1中所述异常值处理为平均值

方差法检测用电采集数据中的异常值,并将异常的用电采集数据删除,步骤如下:

先计算用电采集数据的平均值,假设用电采集数据向量用表示,那么用电采集数据平均值计算公式如下所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中, (i=1,2,3,...n)表示第i条用电采集数据;表示用电采集数据的期望,表示用电采集数据的平均值,用电采集数据的期望值和平均值相等;

计算用电采集数据的方差向量,假设方差向量用表示,其中表示的方差,其计算公式如下所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)

用电采集数据向量中的n条数据分别减平均值并对结果取绝对值,计算得到n个非零实数,取其中最大非零实数定义为最大偏差;

用方差向量除以这一最大偏差,得到一新的向量,求得该向量的模d;如果用电采集数据的模大于d,那么该用电采集数据为正常的数据,否则为异常的数据。3.根据权利要求1所述的一种用电采集数据缺失值填充方法,其特征在于:步骤2中所述降噪自编码器模型训练的具体步骤如下:

输入的用电采集数据中采样一个样本;

降噪自编码器引入一个损坏过程,表示样本产生损坏样本的概率;然后,从损坏过程中采样一个损坏样本;

将作为训练样本去重构原始输入的样本数据的分布;编码过程的数学表达式如公式(3)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,表示编码函数,表示编码函数的参数,表示维的输入向量,表示经过编码器处理后提取到的维的隐含特征向量,并且;解码过程的数学表达式如公式(4)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,表示解码器根据隐含特征向量解码得出的重构向量,并且其维度与原始的输入向量的维度一致,表示解码函数,表示解码函数的参数;降噪自编码器的无监督训练过程是不断调整编码函数的参数和解码函数的参数来最小化损失函数,其损失函数的表达式如公式(5)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,表示解码器根据隐含特征向量解码得出的重构向量,表示训练样本的平均重构误差,表示训练样本的总数目,表示原始向量和重构向量之间的差;编码函数和解码函数采用的均为非线性激活函数,编码函数和解码函数的表达式如公式(6)、(7)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)则公式(4)可改写为如下:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)其中, 表示权重矩阵,表示权重矩阵的转置,表示编码函数的偏置向量,表示解码函数的偏置向量,s
f
表示编码函数的映射,s
g
表示解码函数的映射;原始向量和重构向量之间的差如公式(9)所示;
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)解码和编码网络都采用LSTM;其次,根据层的单元数降低噪声水平,噪声值的比值设置为前一层的一半;接着,在模型中引入一种Depreciation

FourOrder正则化方法,加入正则化项的目标函数表达式被更新为如公式(10)所示:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
其中,表示惩罚参数一,表示惩罚参数二,表示权重系数。4.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:汤克艰唐文升刘向向刘强舒骁骁卢婕冯颖田静熊茹俞林刚严勤刘波李昊翔范志夫曾子厦胡志强
申请(专利权)人:国网江西省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1