基于聚类分析的配电网多维数据处理方法及系统技术方案

技术编号:32854488 阅读:12 留言:0更新日期:2022-03-30 19:22
本发明专利技术公开了一种基于聚类分析的配电网多维数据处理方法,包括:对多数据源数据进行规范接入和存储;对存储后的数据进行异常检测;根据异常检测后的数据的多维特征确定异常数据的强关联属性;根据异常数据的强关联属性采用聚类分析对异常数据进行修正,本发明专利技术能够有效提高配电网数据质量,拥有较高的数据存储和查询效率。和查询效率。和查询效率。

【技术实现步骤摘要】
基于聚类分析的配电网多维数据处理方法及系统


[0001]本专利技术属于电网数据处理
,尤其涉及一种基于聚类分析的配电网多维数据处理方法。

技术介绍

[0002]随着智能配电网信息化建设的不断开展,配电网终端采集数据种类和数量也在不断增加。智能配电网中的配用电信息管理系统有包含配电自动化系统、负荷控制与管理系统、营销业务管理系统、用电信息采集系统等十多个系统,其采集的数据具有明显多源、异构的大数据特征。一方面海量多源数据进行整合可以为配电网运行状态感知等大数据应用提供数据基础,但其多源、异构的特点也给数据融合与存储带来挑战;另一方面,由于智能采集设备分布广并且数量众多,部分终端运行环境恶劣、工况较差,在数据在采集和传输的过程中经常会出现数据丢失或者异常情况。对此类异常数据进行统计分析往往会与真实值差距较大,影响预测精度和控制决策的准确性,现有对数据质量提升的研究方法有很多,例如插值法、神经网络法等,但均是从数据的某一维度特点进行修正。

技术实现思路

[0003]为了解决现有技术存在的问题,本专利技术提供一种基于聚类分析的配电网多维数据处理方法及系统,能够对异常数据进行修正。
[0004]本专利技术所要解决的技术问题是通过以下技术方案实现的:
[0005]第一方面,提供了一种基于聚类分析的配电网多维数据处理方法,包括:
[0006]对多数据源数据进行规范接入和存储;
[0007]对存储后的数据进行异常检测;
[0008]根据异常检测后的数据的多维特征确定异常数据的强关联属性;
[0009]根据异常数据的强关联属性采用聚类分析对异常数据进行修正。
[0010]结合第一方面,进一步的,所述对多数据源数据进行规范接入和存储具体为:基于国家电网公共数据模型采用统一标准接口接入多数据源数据;多数据源数据根据不同的数据类型和特征分库存储。
[0011]结合第一方面,进一步的,所述对存储后的数据进行异常检测具体为:采用基于密度的聚类法DBSCAN对异常数据进行检测。
[0012]结合第一方面,进一步的,所述确定异常数据的强关联属性具体为:
[0013]采用下式确定异常数据的相关性
[0014][0015]其中,X为异常数据集合,Y为异常数据强相关属性的历史数据集合,σ
x
、σ
y
分别为X、Y的标准差,cov(X,Y)为X、Y间的协方差;
[0016][0017]n为异常数据集合中数据个数,x
i
为集合中X中的第i个元素,y
i
为集合Y中的第i个元素。
[0018]结合第一方面,进一步的,所述根据异常数据的强关联属性采用聚类分析对异常数据进行修正具体为:
[0019]建立强关联属性的集合C;
[0020]采用熵权法确定集合C中各个属性的权重w
j

[0021]对于异常数据x
i
,在集合C中选取其第j个强相关属性,对其相同时段历史数据y
j
所在集合进行聚类;
[0022]在y
j
所处类中找到与强关联属性数据之间距离最小的点记作
[0023]根据式(3)得到修正后的数据
[0024][0025]第二方面,提供了一种基于聚类分析的配电网多维数据处理系统,包括:
[0026]预处理模块,用于对多数据源数据进行规范接入和存储;
[0027]异常数据检测模块,用于对存储后的数据进行异常检测;
[0028]数据修正模块,用于根据异常检测后的数据的多维特征确定异常数据的强关联属性;
[0029]根据异常数据的强关联属性采用聚类分析对异常数据进行修正。
[0030]本专利技术有益效果:本专利技术通过提出一种数据服务中心来进行多源数据融合和数据质量的提升。数据服务中心针对配电网数据来源广泛、多源异构的特征进行数据融合,采用规范化接入并根据数据特点进行分库存储,将不同来源数据进行整合管理;针对配电网采集数据量大,质量低的情况,运用聚类分析的方法对历史数据进行提取、异常检测并对结合数据的多维特征对异常数据进行数据修正,提高数据质量;最后通过数据发布模块将修正数据提供给大数据分析应用。实际应用表明该数据服务中心能够有效提高配电网数据质量,拥有较高的数据存储和查询效率。
附图说明
[0031]图1为本专利技术的流程图;
[0032]图2为本专利技术的系统架构图;
[0033]图3为本专利技术中数据修正前后断路器A相电流示意图。
具体实施方式
[0034]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]为了更好地理解本专利技术,下面对本专利技术技术方案中的相关技术进行说明。
[0036]如图1

3所示,一种基于聚类分析的配电网多维数据处理方法,包括如下步骤:
[0037]步骤一、根据配网系统中不同数据来源规范数据接入和整合存储,保证数据统一,具体包括:
[0038]配电网运行实时数据、历史数据和模型数据的规范接入、分库存储和统一主键,具体为:
[0039]数据的同步和整合基于国家电网公共数据模型(SG

CIM)作为标准对接营销系统、用电信息采集系统、生产管理系统、调度自动化系统等多源数据,不同系统数据采用统一标准接口格式接入到本系统中。根据不同数据类型、特征进行分库存储,提高存储效率,并通过雪花算法建立全局主键,保证数据统一。
[0040](1)运行实时数据存储
[0041]运行实时数据来源包含生产控制系统的相关数据,数据来源:调度自动化系统、用电计量系统、GIS系统等。数据类型主要是量测类数据。此类数据通过数据中心实时数据接口进行传输,数据中心负责接收并通过流处理模块转入分布式部署redis实时库中。
[0042](2)历史断面数据存储
[0043]历史断面数据来自营销系统电费数据、用户档案数据,生产控制系统量测历史值等。通过批处理存入influxdb时序库,并支持离线分析。
[0044](3)配电网模型存储
[0045]配电网模型包含配电自动化系统生成的公共信息模型(CIM)以及网络拓扑信息,设备台账信息等。通过数据仓库ETL方式提取到数据中心负责解析。
[0046]步骤二、对存储后的数据进行异常检测
[0047]1、DBSCAN涉及概念描述
[0048]算法通过分析样本数据集中数据点的紧密程度来划分数据类簇。若原始数据集为X={x1,x2…
x
n
},则可以给出如下定义:
[0049](1)ε
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类分析的配电网多维数据处理方法,其特征在于,包括:对多数据源数据进行规范接入和存储;对存储后的数据进行异常检测;根据异常检测后的数据的多维特征确定异常数据的强关联属性;根据异常数据的强关联属性采用聚类分析对异常数据进行修正。2.根据权利要求1所述的一种基于聚类分析的配电网多维数据处理方法,其特征在于,所述对多数据源数据进行规范接入和存储具体为:基于国家电网公共数据模型采用统一标准接口接入多数据源数据;多数据源数据根据不同的数据类型和特征分库存储。3.根据权利要求1所述的一种基于聚类分析的配电网多维数据处理方法,其特征在于,所述对存储后的数据进行异常检测具体为:采用基于密度的聚类法DBSCAN对异常数据进行检测。4.根据权利要1所述的一种基于聚类分析的配电网多维数据处理方法,其特征在于:所述确定异常数据的强关联属性具体为:采用下式确定异常数据的相关性其中,X为异常历史数据集合,Y为和异常数据强相关的正常历史数据集合,σ
x
、σ
y
分别为X、Y的标准差,cov(X,Y)为X、Y间的协方差;n为...

【专利技术属性】
技术研发人员:孙常浩蔡雷鸣季玮施广德金舒
申请(专利权)人:国电南京自动化股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1