当前位置: 首页 > 专利查询>四川大学专利>正文

一种考虑局部与全局的用户负荷数据修复方法技术

技术编号:39517045 阅读:11 留言:0更新日期:2023-11-25 18:54
本发明专利技术涉及一种考虑局部与全局的用户负荷数据修复方法,属于负荷数据插补技术领域,局部插补模型利用数据点之间存在局部的相似性,基于局部相似性对缺失值进行插补;全局插补模型利用整个数据集的特征与分布信息,基于全局信息对缺失值进行插补

【技术实现步骤摘要】
一种考虑局部与全局的用户负荷数据修复方法


[0001]本专利技术属于负荷数据插补
,具体涉及一种考虑局部与全局的用户负荷数据修复方法


技术介绍

[0002]在新一轮电力体制改革推动下,售电侧进一步放开,售电公司作为一个新兴市场主体应运而生

准确的用户级负荷预测对于公司掌握用户需求

减少偏差考核风险和提高经济效益具有重要意义

然而单一用户的负荷相较于系统负荷具有更强的不确定性,基于统计学的传统预测方法难以获得精确的预测结果,而深度学习方法的非线性拟合能力和泛化能力更强
,
能够获取更加精确的预测结果

深度学习模型是数据驱动的方法,数据的质量对模型的性能有着重要的影响

但是在售电公司对用户用电量数据的采集

传输

转换的过程中可能会因为采集设备故障

通信设备故障

遭受攻击等原因,导致采集数据存在缺失,数据质量不佳

[0003]目前对于缺失数据的处理方法可分为直接删除法和插补法

直接删除法虽然简单易用,但只适用于缺失值占比较小的情况,当其占比较大时,会丢失大量关键有用信息,会导致模型的效果差甚至是模型训练失败

插补法可以分为两类,第一类方法是基于相似的数据点进行缺失值的推断,主要包括使用简单的统计量
(
如平均值

中位数
)
以及
k
近邻
(KNN)
等方法,第二类方法是基于整个数据集的信息建立全局模型进行插补,主要包括多重插补和生成对抗网络
(generative adversarial networks,GAN)
等方法

现阶段有采用基于
k
近邻的插补方法,该方法简单易用,但是建模局限于相似的数据点,并未构建全局模型,插补精度较低

还有采用拉格朗日插值方法进行缺失值填充,从数学的角度构建模型捕捉数据的局部相似性进行插补

提出一种基于链式规则的多重插补方法
(MICE)
,该方法通过多次遍历整个数据集以获取数据关联规则,利用关联规则进行缺失值插补,是目前比较流行的一种插补方法

由于深度学习的多层非线性结构,其在捕获数据中的复杂相关性

构建全局模型方面更具优势
。GAN
是一种深度学习生成模型,能够在原始数据集质量不佳时通过生成类似于原始数据且服从同一概率分布的样本,迫使重建数据接近原始数据的自然分布,用于提升原始数据的质量

使用
GAN
对电力系统量测缺失数据进行重建,取得了较好的效果

[0004]上述基于相似数据点的插补方法简单易用,但是受到局部相似性的限制,缺乏数据集的全局信息;基于全局模型的插补方法可以利用整个数据集的特征和分布信息,但计算复杂度较高,受极端数据点的影响较大

[0005]因此,现阶段需设计一种考虑局部与全局的用户负荷数据修复方法,来解决以上问题


技术实现思路

[0006]本专利技术目的在于提供一种考虑局部与全局的用户负荷数据修复方法,用于解决上
述现有技术中存在的技术问题,先利用图卷积神经网络
(graph convolutional network,GCN)
挖掘相似数据点之间的潜在联系,构建局部插补模型;再通过
GAN
构建全局插补模型,二者相结合以提高数据插补的精度

[0007]为实现上述目的,本专利技术的技术方案是:
[0008]一种考虑局部与全局的用户负荷数据修复方法,包括下述步骤:
[0009]S1、
首先利用
GCN
挖掘数据的局部相似性,进行局部插补;即,局部插补模型利用数据点之间存在局部的相似性,基于局部相似性对缺失值进行插补;
[0010]S2、
再基于局部插补的结果使用
GAN
的对抗训练,进行全局插补;即,全局插补模型利用整个数据集的特征与分布信息,基于全局信息对缺失值进行插补;
[0011]S3、
最后进行实验仿真,验证将局部插补与全局插补相结合对插补性能提升的有效性

[0012]进一步的,步骤
S1
具体如下:
[0013](1)
计算相似度矩阵;
[0014]将原始数据集的每一个特征向量表示为图中的一个节点,然后计算各个节点之间的相似性,构成相似矩阵,对相似矩阵进行处理后得到邻接矩阵,根据邻接矩阵即可得到图结构的数据;基于欧氏距离的相似度计算公式如下:
[0015][0016]式中:
d
表示欧氏距离;表示哈达玛积;
M
是二值掩码矩阵,用于表示数据是否缺失,若
M
=0,则表示数据缺失,反之则表示数据没有缺失,
M
i
是矩阵
M
的第
i
列;
[0017]通过对其最近的
K
个非缺失点的相似度进行处理,从而得到缺失点的相似度;设数据缺失点为
x
m
,其最近的
K
个非缺失点为
x
ik
,根据高斯核函数计算缺失点的相似度表达式为:
[0018][0019]式中:
σ
为高斯核函数的带宽参数;
[0020]由此得到一个相对完整的相似度矩阵
S
ij
,对其进行阈值截取操作,以获得一个稀疏矩阵;对相似矩阵
S
ij
的每一行从大到小进行排序,并指定一个分位数
p
,每一行只保留排名在前
p
%的值;如下式:
[0021][0022](2)
构造
GCN
自编码器;
[0023]自编码器由编码器和解码器组成,编码器用于将原始输入
x
映射到一个低维空间
h

encode(x)
中进行中间表示,而解码器则将编码后的输入映射到原始维度空间中对输入进行重构:通过训练减少
x
与之间的误差;使用去噪自编码器;去噪自编码器接收有噪声的原始样本作为输入并对原始样本进行重构作为输出;在局部插补模型中,通过使用
dropout
层随机删除
50
%的输入后再作为去噪自编码器的输入,以完成对原始有缺失输入的重构;
[0024]利用
GCN
作为编码器和解码器,构建局部插补模型;在编码阶段的图卷积只涉及1阶邻居节点,在解码阶段的图卷积扩展到2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种考虑局部与全局的用户负荷数据修复方法,其特征在于,包括下述步骤:
S1、
首先利用
GCN
挖掘数据的局部相似性,进行局部插补;即,局部插补模型利用数据点之间存在局部的相似性,基于局部相似性对缺失值进行插补;
S2、
再基于局部插补的结果使用
GAN
的对抗训练,进行全局插补;即,全局插补模型利用整个数据集的特征与分布信息,基于全局信息对缺失值进行插补;
S3、
最后进行实验仿真,验证将局部插补与全局插补相结合对插补性能提升的有效性
。2.
根据权利要求1的一种考虑局部与全局的用户负荷数据修复方法,其特征在于,步骤
S1
具体如下:
(1)
计算相似度矩阵;将原始数据集的每一个特征向量表示为图中的一个节点,然后计算各个节点之间的相似性,构成相似矩阵,对相似矩阵进行处理后得到邻接矩阵,根据邻接矩阵即可得到图结构的数据;基于欧氏距离的相似度计算公式如下:
S
ij

d(x
i

(M
i

M
j
),x
j

(M
i

M
j
))
;式中:
d
表示欧氏距离;

表示哈达玛积;
M
是二值掩码矩阵,用于表示数据是否缺失,若
M
=0,则表示数据缺失,反之则表示数据没有缺失,
M
i
是矩阵
M
的第
i
列;通过对其最近的
K
个非缺失点的相似度进行处理,从而得到缺失点的相似度;设数据缺失点为
x
m
,其最近的
K
个非缺失点为
x
ik
,根据高斯核函数计算缺失点的相似度表达式为:式中:
σ
为高斯核函数的带宽参数;由此得到一个相对完整的相似度矩阵
S
ij
,对其进行阈值截取操作,以获得一个稀疏矩阵;对相似矩阵
S
ij
的每一行从大到小进行排序,并指定一个分位数
p
,每一行只保留排名在前
p
%的值;如下式:
(2)
构造
GCN
自编码器;自编码器由编码器和解码器组成,编码器用于将原始输入
x
映射到一个低维空间
h

encode(x)
中进行中间表示,而解码器则将编码后的输入映射到原始维度空间中对输入进行重构:通过训练减少
x
与之间的误差;使用去噪自编码器;去噪自编码器接收有噪声的原始样本作为输入并对原始样本进行重构作为输出;在局部插补模型中,通过使用
dropout
层随机删除
50
%的输入后再作为去噪自编码器的输入,以完成对原始有缺失输入的重构;利用
GCN
...

【专利技术属性】
技术研发人员:沈晓东赵俊豪刘友波
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1