System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中台化架构下源端数据异常检测与清洗治理方法与系统技术方案_技高网

中台化架构下源端数据异常检测与清洗治理方法与系统技术方案

技术编号:40361011 阅读:10 留言:0更新日期:2024-02-09 14:48
本发明专利技术涉及一种中台化架构下源端数据异常检测与清洗治理方法与系统,该方案针对中台化架构下海量源端数据异常检测与清洗治理场景,通过构建异常知识库检测已知异常类型的源端数据点,然后对数据局部异常因子值进行聚类以筛选未知类型异常数据点,有效提高检测效率。根据数据缺失长度划分数据缺失类型,采用差异化数据填补方法对清洗后的源端数据进行填补,采取多种评价方式加权求和的方式对数据填补效果进行综合评估,有效提升缺失数据的填补精度。与现有技术相比,本发明专利技术能够在保证源端数据检测精度的同时有效提高异常检测的效率,通过采用差异化数据填补方法有效提升数据填补的精度与效率,进而提升数据的质量。

【技术实现步骤摘要】

本专利技术属于电力源端数据异常监测与清洗治理,具体涉及一种中台化架构下源端数据异常检测与清洗治理方法与系统


技术介绍

0、
技术介绍

1、数据异常检测与清洗填补是实时异常监测、提高数据质量、安全管理保障的重要方法,但由于中台化架构下多源终端的大量接入,海量数据的多源异构和广泛分布等特性复杂多变,为数据的异常检测和清洗治理带来了难题,而源端数据的质量对整个系统的正常运行和数据分析的准确性至关重要。因此,亟需提出一种中台化架构下源端数据异常检测与清洗治理方法与系统。

2、一方面,随着海量源端数据上传至数据中台,数据传输过程中面临着质量保障、安全检测、治理效率等方面的问题,而且由于传感器也可能存在短时失效、外界干扰及传输错误等因素,数据在进行采集和传输时并非完整可靠,导致原始数据出现数据异常与缺失现象。

3、另一方面,随着海量源端数据不断增加,异常数据的数量也会随着上升,若逐一对异常数据进行聚类检测,无疑会为数据中台带来巨大的数据处理压力,异常数据的实时性检测和数据治理效率也难以得到有效保障,因此亟需将异常数据知识库比对和异常数据聚类检测相结合,以满足源端数据的异常检测和清洗填补需求。

4、然而,在中台化架构下源端数据异常检测与清洗治理中,现面临着以下挑战:

5、现有的数据异常检测与清洗方法仅依靠单一方式进行异常数据检测,难以完全筛选出所有的异常数据,且现有的异常数据检测方法没有建立相应的异常数据知识库,无法对已有的异常数据进行快速比对,从而实现高效的异常数据检测。另外,现有的异常数据检测方法参数的设定主要依赖人工设置和历史经验,其主观性差且效率低,仅能处理简单、小规模的数据,难以处理如电压、电流、频率、功率等对实时性和安全性要求较高的海量复杂数据。

6、现有的异常数据治理方法在对缺失异常数据进行填补时,并未对缺失数据类型进行划分,难以结合异常数据特性选择有效的数据填补方法,存在数据填补效率低、精度差等问题。同时,现有方法缺少对各种源端异常数据数据填补评价需求的分析,难以对数据填补效果进行准确评估,无法基于评估结果优化数据治理策略以满足中台架构下多种源端数据的质量保障和治理需求。


技术实现思路

0、
技术实现思路

1、有鉴于此,本专利技术的目的在于提出一种中台化架构下源端数据异常检测与清洗治理方法与系统,以实现新型电力系统海量源端数据的精准异常检测与高效清洗治理。

2、为达到上述目的,本专利技术提供如下技术方案:

3、一种中台化架构下源端数据异常检测与清洗治理方法与系统,该方案针对中台化架构下海量源端数据异常检测与清洗治理场景,在异常检测方面,通过构建异常知识库检测已知异常类型的源端数据点,然后对数据局部异常因子值(lof)进行聚类以筛选未知类型异常数据点,在保证异常检测精度的同时大幅降低检测时间,有效提高检测效率。在清洗治理方面,根据数据缺失长度划分数据缺失类型,采用差异化数据填补方法对清洗后的源端数据进行填补,考虑到不同类型数据对填补效果的评价方式不同,采取多种评价方式加权求和的方式对数据填补效果进行综合评估,适应实际电力系统复杂环境下源端数据治理需求。

4、该方案包括基于异常知识库与局部异常因子聚类的源端数据异常检测与清洗方法与基于数据缺失长度的源端异常缺失数据动态填补方法两部分,具体包括以下步骤:

5、基于异常知识库与局部异常因子聚类的源端数据异常检测与清洗方法

6、s1:构建源端异常数据知识库;

7、s2:检测源端异常数据点;

8、s3:基于异常数据知识点执行源端异常数据清洗;

9、s4:简述具体方法流程;

10、进一步的,所述步骤s1中,所构建的异常数据知识库存放至边缘层的边缘服务器中,以实现源端数据异常的快速检测与诊断。

11、进一步的,所述步骤s2中,通过异常数据知识库检测已知类型异常数据点,然后通过计算各数据点lof并对其进行聚类检测未知类型异常数据点检测。

12、进一步的,所述步骤s3中,基于s2中所检测出的异常数据点,执行数据清洗处理,即将数据点对应数据删除以形成空值。

13、进一步的,所述步骤s4中,具体方法流程包括异常数据知识库构建、源端异常数据点检测、源端异常数据清洗三部分。其中,在源端异常数据清洗部分,通过将经过lof聚类的未知类型异常数据点所对应的数据序列更新至异常知识库中,可以显著提高后续数据异常诊断的效率,降低检测复杂度,能够保证源端数据异常的快速精确检测。

14、基于数据缺失长度的源端异常缺失数据动态填补方法

15、s1:异常数据缺失类型划分;

16、s2:异常数据缺失动态填补;

17、s3:数据处理结果评价;

18、s4:简述具体方法流程

19、进一步的,所述步骤s1中,数据缺失类型定义为局部缺失、一般缺失和长期缺失三类。

20、进一步的,所述步骤s2中,针对不同类型的数据缺失,采取不同的填补方法进行数据补全,共考虑三种数据填补方法,分别是回归分析(lsr)、生成对抗网络(gans)和随机森林(rf)。

21、进一步的,所述步骤s3中,为准确评估缺失数据的填补效果,本专利技术采用平均绝对百分比误差(mape)、均方根误差(rmse)和绝对均方误差(mae)加权和作为缺失数据填补的总误差,以准确计算数据监测点缺失数据填补的误差。

22、进一步的,所述步骤s3中,基于数据治理误差进行异常数据知识库异常检测阈值更新,以更好适应实际源端数据治理需求。

23、进一步的,所述步骤s4中,具体方法流程包括异常数据缺失类型划分、异常数据缺失数据动态填补、数据处理结果评价三部分。其中,在数据结果评价过程中,基于均值评估结果与测试评估结果计算数据治理评估误差,进一步进行异常检测阈值的更新,能够动态调整异常数据检测策略,适应差异化数据治理需求。

24、与现有技术相比,本专利技术具有以下优点:

25、1)本专利技术专利提出一种基于异常知识库与局部异常因子聚类的源端数据动态清洗方法,可以在保证异常数据检测精度的同时有效提高检测的效率。首先通过构建异常数据知识库并基于知识库检测已知类型数据异常点,能够快速减少异常数据规模,提高异常检测效率。然后通过计算局部异常因子值并对其进行聚类分析确定未知类型数据异常点,有效提高异常数据检测的精确度,实现电力系统源端多种类海量异构数据的高效异常检测清洗。此外,将聚类检测出的未知类型数据异常点更新至异常知识库中,作为下次数据治理已知类型异常数据,能够在异常数据检测精度不变的同时进一步缩短异常数据检测的时间,提高数据清洗的效率。

26、2)本专利技术专利提出一种基于数据缺失长度的源端异常缺失数据动态填补方法。其中,基于数据缺失长度划分电力系统源端数据异常缺失类型,并基于数据异常类型选择不同的数据填补算法进行缺失数据的填补,在本文档来自技高网...

【技术保护点】

1.一种中台化架构下源端数据异常检测与清洗治理方法与系统,其特征在于,该方案针对中台化架构下海量源端数据异常检测与清洗治理场景,在异常检测方面,通过构建异常知识库检测已知异常类型的源端数据点,然后对数据局部异常因子值(LOF)进行聚类以筛选未知类型异常数据点,在保证异常检测精度的同时大幅降低检测时间,有效提高检测效率。在清洗治理方面,根据数据缺失长度划分数据缺失类型,采用差异化数据填补方法对清洗后的源端数据进行填补,考虑到不同类型数据对填补效果的评价方式不同,采取多种评价方式加权求和的方式对数据填补效果进行综合评估,适应实际电力系统复杂环境下源端数据治理需求。

2.根据权利要求1所述的中台化架构下源端数据异常检测与清洗治理方法与系统,其特征在于,该系统主要包括终端层、边缘层以及云层三部分。

3.根据权利要求1所述的中台化架构下源端数据异常检测与清洗治理方法与系统,其特征在于,该方案包括基于异常知识库与局部异常因子聚类的源端数据异常检测与清洗方法与基于数据缺失长度的源端异常缺失数据动态填补方法两部分。

4.根据权利要求3所述的基于异常知识库与局部异常因子聚类的源端数据异常检测与清洗方法,其特征在于,该方法具体包括以下步骤:

5.根据权利要求3所述的基于数据缺失长度的源端异常缺失数据动态填补方法,其特征在于,该方案具体包括以下步骤:

6.根据权利要求4所述的基于异常知识库与局部异常因子聚类的源端数据异常检测与清洗方法,其特征在于,异常数据知识库存放至边缘层的边缘服务器中,存储各类存在异常数据的异常点集合与其所对应的原始异常数据;通过异常数据知识库检测已知类型异常数据点,然后通过计算各数据点LOF并对其进行聚类检测未知类型异常数据点检测。

7.根据权利要求5所述的基于数据缺失长度的源端异常缺失数据动态填补方法,其特征在于,异常数据缺失类型划分为局部缺失、一般缺失和长期缺失三类。

8.根据权利要求5所述的基于数据缺失长度的源端异常缺失数据动态填补方法,其特征在于,针对不同类型的数据缺失,采取不同的填补方法进行数据补全,共考虑三种数据填补方法,分别是回归分析(LSR)、生成对抗网络(GANs)和随机森林(RF)。

9.根据权利要求5所述的基于数据缺失长度的源端异常缺失数据动态填补方法,其特征在于,采用平均绝对百分比误差(MAPE)、均方根误差(RMSE)和绝对均方误差(MAE)加权和作为缺失数据填补的总误差,以准确计算数据监测点缺失数据填补的误差;基于数据治理误差进行异常数据知识库异常检测阈值更新,能够动态调整异常数据检测需求,以更好适应实际源端数据治理需求。

...

【技术特征摘要】

1.一种中台化架构下源端数据异常检测与清洗治理方法与系统,其特征在于,该方案针对中台化架构下海量源端数据异常检测与清洗治理场景,在异常检测方面,通过构建异常知识库检测已知异常类型的源端数据点,然后对数据局部异常因子值(lof)进行聚类以筛选未知类型异常数据点,在保证异常检测精度的同时大幅降低检测时间,有效提高检测效率。在清洗治理方面,根据数据缺失长度划分数据缺失类型,采用差异化数据填补方法对清洗后的源端数据进行填补,考虑到不同类型数据对填补效果的评价方式不同,采取多种评价方式加权求和的方式对数据填补效果进行综合评估,适应实际电力系统复杂环境下源端数据治理需求。

2.根据权利要求1所述的中台化架构下源端数据异常检测与清洗治理方法与系统,其特征在于,该系统主要包括终端层、边缘层以及云层三部分。

3.根据权利要求1所述的中台化架构下源端数据异常检测与清洗治理方法与系统,其特征在于,该方案包括基于异常知识库与局部异常因子聚类的源端数据异常检测与清洗方法与基于数据缺失长度的源端异常缺失数据动态填补方法两部分。

4.根据权利要求3所述的基于异常知识库与局部异常因子聚类的源端数据异常检测与清洗方法,其特征在于,该方法具体包括以下步骤:

5.根据权利要求3所述的基于数据缺失长度的源端异常缺失数...

【专利技术属性】
技术研发人员:孙中伟刘希王珂丁添周振宇
申请(专利权)人:华北电力大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1