一种多源数据接入下电力数据标准化清洗方法和装置制造方法及图纸

技术编号:28419717 阅读:10 留言:0更新日期:2021-05-11 18:26
本发明专利技术涉及一种多源数据接入下电力数据标准化清洗方法,包括:S10、数据初步聚类处理,使用K均值算法对采集到的数据进行读取,根据数据的属性值特征对采集到的数据进行分类,S20、多源数据清洗采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,并采用现有的数据清洗工具完成多源数据清洗工作。本发明专利技术的有益效果是:根据数据的属性值特征对采集到的数据进行分类,采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,采用现有的数据清洗工具完成多源数据清洗工作,提高数据库数据处理结果的精确度,进而提高清洗数据的准确率。

【技术实现步骤摘要】
一种多源数据接入下电力数据标准化清洗方法和装置
本专利技术涉及数据处理
,尤其涉及一种多源数据接入下电力数据标准化清洗方法和装置。
技术介绍
人们可以使用越来越多的数据资源,但是海量的数据并不一定具有真正的价值,数据的价值来源于其质量,而数据挖掘的质量直接影响决策的质量。然而,人工处理这些庞大而杂乱的数据是非常困难的,数据质量问题已成为制约数据应用和处理的瓶颈之一。纠正数据中的质量问题,避免决策失误,降低决策风险,是数据处理的重要环节。在以往的研究中,采用数据标准化清洗系统来完成数据清洗。然而,由于数据量的增加,多源数据的出现对系统的性能产生了影响,电力数据尤为明显。
技术实现思路
本专利技术的目的在于克服现有技术存在的以上问题,提供一种多源数据接入下电力数据标准化清洗方法和装置。为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:S10、电力数据初步聚类处理,使用K均值算法对采集到的数据进行读取,根据数据的属性值特征对采集到的数据进行分类,完成电力数据聚类处理;S20、电力多源数据清洗,采用聚类处理后的数据作为数据清洗的数据来源,完成电力数据标准化清洗。进一步地,S10中,数据进行分类的工作处理复杂性可表示为A(n),将采集到的数据采用字符串的形式体现,其数据聚类计算复杂性可表示为A(m·I),其中m表示不同属性数据的个数,I表示相同属性的数据个数,为保证数据聚类的可行性,设定初步聚类处理中的约束条件表示为:式中,S表示聚类核心距离,对此公式进行变换,得到适用于多源数据聚类约束条件,则有:A(m·I)=A(n)采用计算相似度的形式,控制聚类核心距离的计算精度,通过公式表示为:J(A,B)=|A∩B|/|A∪B|式中,J表示计算核心距离的相似度,B为计算结果,通过此公式将计算结果的误差值控制在0.5%之内,以此保证后续计算的有效性;设定G表示数据类型出现的次数,H表示此部分数据类型出现的权重,则计算中此类型数据出现的频率R可表示为:将上述公式融入数据聚类模块中,完成数据聚类处理;S20、多源数据清洗,采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,设定在数据库Y中具有两组数据,其中一组为无需清洗的数据集合,另一组为需要清洗的数据,无需清洗的数据设定为C,C中包含的数据全部由数据库Y中元素组成,fc(a)表示C在数据库中出现的次数,Qc(a)为待清洗数据在数据库中与无需清洗数据的相似度,则有:设定Qc(v)表示数据库中子集v在数据库中的相似度,则有:设定v1∈C,v2∈C,则数据v2与v1的关系表示为:通过上述公式可对数据库中需要拆分出的数据进行处理,并采用现有的数据清洗工具完成多源数据清洗工作。所述电力数据包括年度、月度以及单日的电力生产数据和用电数据。其中,所述数据清洗工具至少为IDCENTRIC、PUREINTEGRATE、TRILLIUM、DATACLEANSESER、MATCHIT中的一种。一种多源数据接入下电力数据标准化清洗装置,用于运行上述的多源数据接入下电力数据标准化清洗方法,包括开发板、直流电源、稳压电路、通信接口,所述直流电源通过稳压电路给开发板供电,所述直流电源直接为通信接口供电,所述开发板的USB接口和网口与通信接口连接,所述开发板上安装有ARM芯片、时钟电路、复位电路、通信模块、定时器,所述ARM芯片分别与时钟电路、复位电路、通信模块、定时器连接。其中,所述ARM芯片的型号为S3C2440。本专利技术的有益效果是:根据数据的属性值特征对采集到的数据进行分类,采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,采用现有的数据清洗工具完成多源数据清洗工作,提高数据库数据处理结果的精确度,进而提高清洗数据的准确率。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术实施例中清洗方法的流程图的结构示意图;图2是本专利技术实施例中清洗装置的框架图。具体实施方式下面将参考附图并结合实施例,来详细说明本专利技术。如图1所示,一种多源数据接入下电力数据标准化清洗方法,包括:S10、电力数据初步聚类处理,使用K均值算法对采集到的数据进行读取,根据数据的属性值特征对采集到的数据进行分类,此工作处理复杂性可表示为A(n),将采集到的数据采用字符串的形式体现,其数据聚类计算复杂性可表示为A(m·I),其中m表示不同属性数据的个数,I表示相同属性的数据个数,为保证数据聚类的可行性,设定初步聚类处理中的约束条件表示为:式中,S表示聚类核心距离,对此公式进行变换,得到适用于多源数据聚类约束条件,则有:A(m·I)=A(n)采用计算相似度的形式,控制聚类核心距离的计算精度,通过公式表示为:J(A,B)=|A∩B|/|A∪B|式中,J表示计算核心距离的相似度,B为计算结果,通过此公式将计算结果的误差值控制在0.5%之内,以此保证后续计算的有效性;设定G表示数据类型出现的次数,H表示此部分数据类型出现的权重,则计算中此类型数据出现的频率R可表示为:将上述公式融入数据聚类模块中,完成数据聚类处理,所述电力数据包括年度、月度以及单日的电力生产数据和用电数据;S20、多源数据清洗,采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,设定在数据库Y中具有两组数据,其中一组为无需清洗的数据集合,另一组为需要清洗的数据,无需清洗的数据设定为C,C中包含的数据全部由数据库Y中元素组成,fc(a)表示C在数据库中出现的次数,Qc(a)为待清洗数据在数据库中与无需清洗数据的相似度,则有:设定Qc(v)表示数据库中子集v在数据库中的相似度,则有:设定v1∈C,v2∈C,则数据v2与v1的关系表示为:通过上述公式可对数据库中需要拆分出的数据进行处理,并采用现有的数据清洗工具完成多源数据清洗工作。数据清洗工具至少为IDCENTRIC、PUREINTEGRATE、TRILLIUM、DATACLEANSESER、MATCHIT中的一种。如图2所示,一种多源数据接入下电力数据标准化清洗装置,用于运行上述的多源数据接入下电力数据标准化清洗方法,包括开发板、直流电源、稳压电路、通信接口,直流电源通过稳压电路给开发板供电,直流电源直接为通信接口供电,开发板的USB接口和网口与通信接口连接,开发板上安装有ARM芯片、时钟电路、复位电路、通信模块、定时器,ARM芯片分别与时钟电路、复位电路、通信模块、定时器连接。ARM芯片的型号为S3C2440。...

【技术保护点】
1.一种多源数据接入下电力数据标准化清洗方法,其特征在于,包括:/nS10、电力数据初步聚类处理,使用K均值算法对采集到的数据进行读取,根据数据的属性值特征对采集到的数据进行分类,完成电力数据聚类处理;/nS20、电力多源数据清洗,采用聚类处理后的数据作为数据清洗的数据来源,完成电力数据标准化清洗。/n

【技术特征摘要】
1.一种多源数据接入下电力数据标准化清洗方法,其特征在于,包括:
S10、电力数据初步聚类处理,使用K均值算法对采集到的数据进行读取,根据数据的属性值特征对采集到的数据进行分类,完成电力数据聚类处理;
S20、电力多源数据清洗,采用聚类处理后的数据作为数据清洗的数据来源,完成电力数据标准化清洗。


2.根据权利要求1所述的一种多源数据接入下电力数据标准化清洗方法,其特征在于,S10中,数据进行分类的工作处理复杂性可表示为A(n),将采集到的数据采用字符串的形式体现,其数据聚类计算复杂性可表示为A(m·I),其中m表示不同属性数据的个数,I表示相同属性的数据个数,为保证数据聚类的可行性,设定初步聚类处理中的约束条件表示为:



式中,S表示聚类核心距离,对此公式进行变换,得到适用于多源数据聚类约束条件,则有:



A(m·I)=A(n)
采用计算相似度的形式,控制聚类核心距离的计算精度,通过公式表示为:
J(A,B)=|A∩B|/|A∪B|
式中,J表示计算核心距离的相似度,B为计算结果,通过此公式将计算结果的误差值控制在0.5%之内,以此保证后续计算的有效性;
设定G表示数据类型出现的次数,H表示此部分数据类型出现的权重,则计算中此类型数据出现的频率R可表示为:



将上述公式融入数据聚类模块中,完成数据聚类处理。


3.根据权利要求1所述的一种多源数据接入下电力数据标准化清洗方法,其特征在于,S20的具体步骤为:采用聚类处理后的数据作为数据清洗的数据来源,将处理后的数据设定为数据库形式,设定在数据库Y中具有两组...

【专利技术属性】
技术研发人员:周立德黎鸣陈凤超梅傲琪胡润锋钟志明邱泽坚何毅鹏黄达区饶欢张锐刘沛林徐睿烽鲁承波
申请(专利权)人:广东电网有限责任公司东莞供电局
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1