一种电网异常数据治理方法技术

技术编号:39647789 阅读:11 留言:0更新日期:2023-12-09 11:15
本发明专利技术涉及数据治理技术领域,尤其涉及一种电网异常数据治理方法

【技术实现步骤摘要】
一种电网异常数据治理方法、系统、设备及介质


[0001]本专利技术属于数据治理
,具体涉及一种电网异常数据治理方法

系统

设备及介质


技术介绍

[0002]随着电力企业数字化转型的深入,数据成为企业发展的关键生产要素

在大数据时代,数据不仅是资源,更是资产,数据已成为衡量企业竞争力的重要标志,电力数据要素化市场化流通是趋势,那么高质量的数据显得尤为重要,为此需要开展数据治理提升工作

[0003]在电网领域开展数据质量管理平台的数据治理工作时,发现统一社会信用代码标准程度低(数据缺失及错误

编码位数不符等)导致与外部数据无法匹配;用电类别与行业分类不一致导致行业用电数据分析结果出现偏差;用户存续状态数据不符影响用户抄表算费准确性;配变设备名称与用途不一致,导致业务人员无法精准判断变压器的真实资产属性,无法确定设备是否归属电网资产,若变压器涉及基建工程改造等业务,将导致越权改造

不合规改造等问题,然而现有数据治理工作并不能有效解决这些问题


技术实现思路

[0004]有鉴于此,本专利技术旨在提供一种电网异常数据治理方法

系统

设备及介质,快速完成自查自纠的数据治理工作,以解决上述现有技术问题的至少之一

[0005]本专利技术提供了一种电网异常数据治理方法,所述方法具体包括:获取电网业务系统的电网元数据;确定所述电网元数据中的电网异常数据;根据数据修正规则确定电网修正数据;将所述电网修正数据替换所述电网异常数据,获得处理结果;对所述处理结果进行复核

[0006]进一步的,所述确定所述电网元数据中的电网异常数据,具体包括:采用
DBSCAN
聚类算法将所述电网元数据进行聚类,并获得若干个聚类簇;根据
Isolation Forest
算法对每个聚类簇进行检测,获得若干个异常数据点

[0007]更进一步的,所述采用
DBSCAN
聚类算法将所述电网元数据进行聚类,并获得若干个聚类簇,具体包括:根据
StandardScaler
函数对所述电网元数据进行标准化处理,获得电网标准化数据,所述电网标准化数据包括电网时间序列数据

电网拓扑数据和电网相位数据;根据所述电网时间序列数据的均值

方差和频域特征设置所述电网时间序列数据的数据点的邻域范围,以及每个数据点的邻域内的预设数据点数目;根据所述电网拓扑数据的节点角度和节点距离设置所述电网拓扑数据的数据点的邻域范围,以及每个数据点的邻域内的预设数据点数目;根据所述电网相位数据的相位差设置所述电网相位数据的数据点的邻域范围,以
及每个数据点的邻域内的预设数据点数目;根据所述电网时间序列数据

所述电网拓扑数据和所述电网相位数据各自的邻域范围和预设数据点数目,分别生成对应的若干个聚类簇

[0008]更进一步的,所述根据
Isolation Forest
算法对每个聚类簇进行检测,获得若干个异常数据点,具体包括:根据所述电网时间序列数据的每个时间点的数值确定第一分割阈值,通过所述第一分割阈值将所述电网时间序列数据划分为两个子集,在两个子集中分别确定新的第一分割阈值,根据新的第一分割阈值分别将两个子集再分为两个子集,重复确定新的第一分割阈值并进行子集划分,直到子集中的数据点都具有相同的数值,形成第一
Isolation Forest
模型;根据所述电网拓扑数据的每个节点与其他节点的连接数量

连接距离和连接类型确定第二分割阈值,通过所述第二分割阈值将所述电网拓扑数据划分为两个子集,在两个子集中分别确定新的第二分割阈值,根据新的第二分割阈值分别将两个子集再分为两个子集,重复确定新的第二分割阈值并进行子集划分,直到子集中的数据点都具有相同的数值,形成第二
Isolation Forest
模型;根据所述电网相位数据的不同设备之间的相位差确定第三分割阈值,通过所述第三分割阈值将所述电网相位数据划分为两个子集,在两个子集中分别确定新的第三分割阈值,根据新的第三分割阈值分别将两个子集再分为两个子集,重复确定新的第三分割阈值并进行子集划分,直到子集中的数据点都具有相同的数值,形成第三
Isolation Forest
模型;根据所述第一
Isolation Forest
模型

所述第二
Isolation Forest
模型和所述第三
Isolation Forest
模型,分别对对应的每个聚类簇进行检测,确定若干个异常数据点

[0009]进一步的,所述根据数据修正规则确定电网修正数据,具体包括:根据线性回归模型获得预测数据值;通过所述预测数据值和所述电网异常数据进行数据还原,获得电网修正数据值;根据所述电网修正数据值和电网实际数据值之间的平均绝对误差

均方误差

均方根误差和准确率中的至少一种进行修正效果评估,获得修正效果评估结果;根据所述修正效果评估结果对所述线性回归模型进行调整

[0010]更进一步的,所述根据线性回归模型获得预测数据值,具体包括:获取历史电网数据和关联特征历史数据集,所述历史电网数据包括历史电网正常数据和历史电网异常数据,所述关联特征历史数据集为与所述历史电网异常数据有强关联性的特征的历史数据的集合;将所述历史电网数据和所述关联特征历史数据集输入至所述线性回归模型进行训练,获得线性回归模型;根据所述线性回归模型对每个异常数据点获得对应的预测数据值

[0011]更进一步的,所述通过所述预测数据值和所述电网异常数据进行数据还原,获得电网修正数据值,具体包括:确定每个异常数据点的最大值和最小值;基于所述数据修正公式,通过每个异常数据点的最大值

最小值和对应的预测数
据值,获得电网修正数据值,所述数据修正公式满足
C=P*(max

min)+min
,其中,
C
为电网修正数据值,
P
为每个异常数据点对应的预测数据值,
max
为每个异常数据点的最大值,
min
为每个异常数据点的最小值

[0012]本专利技术还提供了一种电网异常数据治理系统,所述系统具体包括数据源模块

规则库模块

标准库模块

执行模块和结果核查模块;所述数据源模块,用于获取电网业务系统的电网元数据;所述规则库模块,用于确定所述电网元数据中的电网异常数据;所述标准库模块,用于根据数据修正规则确定电网修正数据;所述执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种电网异常数据治理方法,其特征在于,所述方法具体包括:获取电网业务系统的电网元数据;确定所述电网元数据中的电网异常数据;根据数据修正规则确定电网修正数据;将所述电网修正数据替换所述电网异常数据,获得处理结果;对所述处理结果进行复核
。2.
根据权利要求1所述的电网异常数据治理方法,其特征在于,所述确定所述电网元数据中的电网异常数据,具体包括:采用
DBSCAN
聚类算法将所述电网元数据进行聚类,并获得若干个聚类簇;根据
Isolation Forest
算法对每个聚类簇进行检测,获得若干个异常数据点
。3.
根据权利要求2所述的电网异常数据治理方法,其特征在于,所述采用
DBSCAN
聚类算法将所述电网元数据进行聚类,并获得若干个聚类簇,具体包括:根据
StandardScaler
函数对所述电网元数据进行标准化处理,获得电网标准化数据,所述电网标准化数据包括电网时间序列数据

电网拓扑数据和电网相位数据;根据所述电网时间序列数据的均值

方差和频域特征设置所述电网时间序列数据的数据点的邻域范围,以及每个数据点的邻域内的预设数据点数目;根据所述电网拓扑数据的节点角度和节点距离设置所述电网拓扑数据的数据点的邻域范围,以及每个数据点的邻域内的预设数据点数目;根据所述电网相位数据的相位差设置所述电网相位数据的数据点的邻域范围,以及每个数据点的邻域内的预设数据点数目;根据所述电网时间序列数据

所述电网拓扑数据和所述电网相位数据各自的邻域范围和预设数据点数目,分别生成对应的若干个聚类簇
。4.
根据权利要求3所述的电网异常数据治理方法,其特征在于,所述根据
Isolation Forest
算法对每个聚类簇进行检测,获得若干个异常数据点,具体包括:根据所述电网时间序列数据的每个时间点的数值确定第一分割阈值,通过所述第一分割阈值将所述电网时间序列数据划分为两个子集,在两个子集中分别确定新的第一分割阈值,根据新的第一分割阈值分别将两个子集再分为两个子集,重复确定新的第一分割阈值并进行子集划分,直到子集中的数据点都具有相同的数值,形成第一
Isolation Forest
模型;根据所述电网拓扑数据的每个节点与其他节点的连接数量

连接距离和连接类型确定第二分割阈值,通过所述第二分割阈值将所述电网拓扑数据划分为两个子集,在两个子集中分别确定新的第二分割阈值,根据新的第二分割阈值分别将两个子集再分为两个子集,重复确定新的第二分割阈值并进行子集划分,直到子集中的数据点都具有相同的数值,形成第二
Isolation Forest
模型;根据所述电网相位数据的不同设备之间的相位差确定第三分割阈值,通过所述第三分割阈值将所述电网相位数据划分为两个子集,在两个子集中分别确定新的第三分割阈值,根据新的第三分割阈值分别将两个子集再分为两个子集,重复确定新的第三分割阈值并进行子集划分,直到子集中的数据点都具有相同的数值,形成第三
Isolation Forest

【专利技术属性】
技术研发人员:郑芒英李昀徐达艺王奕郑韶光肖畅张弛林荣秋李琦陈麒任陈源森何晓爽王业
申请(专利权)人:广东电网有限责任公司湛江供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1