一种基于贝叶斯算法的住户用电数据清洗方法技术

技术编号:21224616 阅读:34 留言:0更新日期:2019-05-29 05:22
本发明专利技术涉及数据清洗相关技术领域,具体为一种基于贝叶斯算法的住户用电数据清洗方法。包括数据采集,规则定义、数据清洗,结果验证和数据替换,该基于贝叶斯算法的住户用电数据清洗方法利用定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则,同时,清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理,采用近邻排序算法SNM,该算法可以对相似数据进行有效重复值清洗的工作,提高效率。

A household electricity data cleaning method based on Bayesian algorithm

The invention relates to the related technical field of data cleaning, in particular to a household electricity data cleaning method based on Bayesian algorithm. It includes data acquisition, rule definition, data cleaning, result validation and data replacement. The household electricity data cleaning method based on Bayesian algorithm uses definition cleaning rules to formulate different cleaning rules according to different error types of household electricity data. At the same time, cleaning rules include detection and processing of illegal values, null values, inconsistent data and similar duplicate data. By using the nearest neighbor sorting algorithm SNM, the algorithm can clean the similar data effectively and improve the efficiency.

【技术实现步骤摘要】
一种基于贝叶斯算法的住户用电数据清洗方法
本专利技术涉及数据清洗相关
,具体为一种基于贝叶斯算法的住户用电数据清洗方法。
技术介绍
数据清洗,对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。但是在现有的数据清洗方法中,缺少针对住户用电数据不同的错误类型制定不同的清洗规则,而且,现有的清洗方法虽然会多次清洗,但是,并没有对相似重复数据进行检测和处理。
技术实现思路
本专利技术的目的在于提供一种基于贝叶斯算法的住户用电数据清洗方法,以解决现有的数据清洗方法中,缺少针对住户用电数据不同的错误类型制定不同的清洗规则,而且,现有的清洗方法虽然会多次清洗,但是,并没有对相似重复数据进行检测和处理的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于贝叶斯算法的住户用电数据清洗方法,包括以下步骤:1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;4)根据清洗规则对住户用电数据进行初次清洗;5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);7)用清洗后的住户用电数据替换原住户用电数据。优选的,所述步骤3)中清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理。优选的,所述非法值的处理方法是采取预设值、空值替换非法值或删除非法值。优选的,所述空值的处理方法是采取平均值填充法、中位数填充法、运用KNN或神经网络相关算法填充空值。优选的,所述不一致数据的处理方法是采取元数据实现住户用电数据的一致性。优选的,所述相似重复数据的清洗规则采用近邻排序算法SNM。与现有技术相比,本专利技术具有以下有益效果:该基于贝叶斯算法的住户用电数据清洗方法利用定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则,同时,清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理,采用近邻排序算法SNM,该算法可以对相似数据进行有效重复值清洗的工作,提高效率。附图说明图1是本专利技术的流程图。具体实施方式下面将结合本专利技术的实施例和附图,对本专利技术中的技术方案做进一步详细描述,该实施例仅用于解释本专利技术,并不对本专利技术的保护范围构成限定。本专利技术提供一种技术方案:一种基于贝叶斯算法的住户用电数据清洗方法,包括以下步骤:1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息,将实体的属性数据直接连接到相应的几何目标上,可在数字化及建立图形拓扑关系的同时或之后,对照一个几何目标直接输人属性数据,并可对数据进行修改、删除、拷贝等编辑操作;3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则,从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理用电数据的丢失值、越界值、不一致代码、重复数据等问题;4)根据清洗规则对住户用电数据进行初次清洗;5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);7)用清洗后的住户用电数据替换原住户用电数据;所述步骤3)中清洗规则包括非法值、空值、不一致数据以及相似重复数据的检测和处理;所述非法值的处理方法是采取预设值、空值替换非法值或删除非法值;所述空值的处理方法是采取平均值填充法、中位数填充法、运用KNN或神经网络相关算法填充空值;所述不一致数据的处理方法是采取元数据实现住户用电数据的一致性;所述相似重复数据的清洗规则采用近邻排序算法SNM,该算法可以对相似数据进行有效重复值清洗的工作。以上显示和描述了本专利技术的基本原理、主要特征及优点。本行业的技术人员应该了解,本专利技术不受上述实施例的限制,上述实施例和说明书中描述的只是说明本专利技术的原理,在不脱离本专利技术精神和范围的前提下,本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内。本专利技术要求保护范围由所附的权利要求书及其等效物界定。本文档来自技高网...

【技术保护点】
1.一种基于贝叶斯算法的住户用电数据清洗方法,其特征在于,具体包括以下步骤:1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;4)根据清洗规则对住户用电数据进行初次清洗;5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);7)用清洗后的住户用电数据替换原住户用电数据。

【技术特征摘要】
1.一种基于贝叶斯算法的住户用电数据清洗方法,其特征在于,具体包括以下步骤:1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;4)根据清洗规则对住户用电数据进行初次清洗;5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);7)用清洗后的住户用电数据替换原住户用电数据。2.根据权利要求1所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述步骤3)中...

【专利技术属性】
技术研发人员:陈小强
申请(专利权)人:江苏圣通电力新能源科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1