【技术实现步骤摘要】
一种电网异常数据治理方法、系统、设备及介质
[0001]本专利技术属于数据治理
,具体涉及一种电网异常数据治理方法
、
系统
、
设备及介质
。
技术介绍
[0002]随着电力企业数字化转型的深入,数据成为企业发展的关键生产要素
。
在大数据时代,数据不仅是资源,更是资产,数据已成为衡量企业竞争力的重要标志,电力数据要素化市场化流通是趋势,那么高质量的数据显得尤为重要,为此需要开展数据治理提升工作
。
[0003]在电网领域开展数据质量管理平台的数据治理工作时,发现统一社会信用代码标准程度低(数据缺失及错误
、
编码位数不符等)导致与外部数据无法匹配;用电类别与行业分类不一致导致行业用电数据分析结果出现偏差;用户存续状态数据不符影响用户抄表算费准确性;配变设备名称与用途不一致,导致业务人员无法精准判断变压器的真实资产属性,无法确定设备是否归属电网资产,若变压器涉及基建工程改造等业务,将导致越权改造
、
不合规改造等问题,然而现有数据治理工作并不能有效解决这些问题
。
技术实现思路
[0004]有鉴于此,本专利技术旨在提供一种电网异常数据治理方法
、
系统
、
设备及介质,快速完成自查自纠的数据治理工作,以解决上述现有技术问题的至少之一
。
[0005]本专利技术提供了一种电网异常数据治理方法,所述方法具体包括:获取电网业务系统的电网元数据 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种电网异常数据治理方法,其特征在于,所述方法具体包括:获取电网业务系统的电网元数据;确定所述电网元数据中的电网异常数据;根据数据修正规则确定电网修正数据;将所述电网修正数据替换所述电网异常数据,获得处理结果;对所述处理结果进行复核
。2.
根据权利要求1所述的电网异常数据治理方法,其特征在于,所述确定所述电网元数据中的电网异常数据,具体包括:采用
DBSCAN
聚类算法将所述电网元数据进行聚类,并获得若干个聚类簇;根据
Isolation Forest
算法对每个聚类簇进行检测,获得若干个异常数据点
。3.
根据权利要求2所述的电网异常数据治理方法,其特征在于,所述采用
DBSCAN
聚类算法将所述电网元数据进行聚类,并获得若干个聚类簇,具体包括:根据
StandardScaler
函数对所述电网元数据进行标准化处理,获得电网标准化数据,所述电网标准化数据包括电网时间序列数据
、
电网拓扑数据和电网相位数据;根据所述电网时间序列数据的均值
、
方差和频域特征设置所述电网时间序列数据的数据点的邻域范围,以及每个数据点的邻域内的预设数据点数目;根据所述电网拓扑数据的节点角度和节点距离设置所述电网拓扑数据的数据点的邻域范围,以及每个数据点的邻域内的预设数据点数目;根据所述电网相位数据的相位差设置所述电网相位数据的数据点的邻域范围,以及每个数据点的邻域内的预设数据点数目;根据所述电网时间序列数据
、
所述电网拓扑数据和所述电网相位数据各自的邻域范围和预设数据点数目,分别生成对应的若干个聚类簇
。4.
根据权利要求3所述的电网异常数据治理方法,其特征在于,所述根据
Isolation Forest
算法对每个聚类簇进行检测,获得若干个异常数据点,具体包括:根据所述电网时间序列数据的每个时间点的数值确定第一分割阈值,通过所述第一分割阈值将所述电网时间序列数据划分为两个子集,在两个子集中分别确定新的第一分割阈值,根据新的第一分割阈值分别将两个子集再分为两个子集,重复确定新的第一分割阈值并进行子集划分,直到子集中的数据点都具有相同的数值,形成第一
Isolation Forest
模型;根据所述电网拓扑数据的每个节点与其他节点的连接数量
、
连接距离和连接类型确定第二分割阈值,通过所述第二分割阈值将所述电网拓扑数据划分为两个子集,在两个子集中分别确定新的第二分割阈值,根据新的第二分割阈值分别将两个子集再分为两个子集,重复确定新的第二分割阈值并进行子集划分,直到子集中的数据点都具有相同的数值,形成第二
Isolation Forest
模型;根据所述电网相位数据的不同设备之间的相位差确定第三分割阈值,通过所述第三分割阈值将所述电网相位数据划分为两个子集,在两个子集中分别确定新的第三分割阈值,根据新的第三分割阈值分别将两个子集再分为两个子集,重复确定新的第三分割阈值并进行子集划分,直到子集中的数据点都具有相同的数值,形成第三
Isolation Forest
技术研发人员:郑芒英,李昀,徐达艺,王奕,郑韶光,肖畅,张弛,林荣秋,李琦,陈麒任,陈源森,何晓爽,王业,
申请(专利权)人:广东电网有限责任公司湛江供电局,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。