The invention relates to the related technical field of data cleaning, in particular to a household electricity data cleaning method based on Bayesian algorithm. It includes data acquisition, rule definition, data cleaning, result validation and data replacement. The household electricity data cleaning method based on Bayesian algorithm uses definition cleaning rules to formulate different cleaning rules according to different error types of household electricity data. At the same time, cleaning rules include detection and processing of illegal values, null values, inconsistent data and similar duplicate data. By using the nearest neighbor sorting algorithm SNM, the algorithm can clean the similar data effectively and improve the efficiency.
【技术实现步骤摘要】
一种基于贝叶斯算法的住户用电数据清洗方法
本专利技术涉及数据清洗相关
,具体为一种基于贝叶斯算法的住户用电数据清洗方法。
技术介绍
数据清洗,对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。但是在现有的数据清洗方法中,缺少针对住户用电数据不同的错误类型制定不同的清洗规则,而且,现有的清洗方法虽然会多次清洗,但是,并没有对相似重复数据进行检测和处理。
技术实现思路
本专利技术的目的在于提供一种基于贝叶斯算法的住户用电数据清洗方法,以解决现有的数据清洗方法中,缺少针对住户用电数据不同的错误类型制定不同的清洗规则,而且,现有的清洗方法虽然会多次清洗,但是,并没有对相似重复数据进行检测和处理的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于贝叶斯算法的住户用电数据清洗方法,包括以下步骤:1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;4)根据清洗规则对住户用电数据进行初次清洗;5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);7)用清洗后的住户用电数据替换原住户用电数据。优选的,所述步 ...
【技术保护点】
1.一种基于贝叶斯算法的住户用电数据清洗方法,其特征在于,具体包括以下步骤:1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;4)根据清洗规则对住户用电数据进行初次清洗;5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);7)用清洗后的住户用电数据替换原住户用电数据。
【技术特征摘要】
1.一种基于贝叶斯算法的住户用电数据清洗方法,其特征在于,具体包括以下步骤:1)从住户用电数据库中采集住户用电数据,将采集到的住户用电数据放入待清洗库中;2)对待清洗数据库中的住户用电数据进行数据分析,确定住户用电数据的属性信息;3)定义清洗规则,根据住户用电数据不同的错误类型制定不同的清洗规则;4)根据清洗规则对住户用电数据进行初次清洗;5)采用贝叶斯算法对初次清洗后的住户用电数据进行深度清洗;6)验证清洗结果,判断是否满足清洗要求,如果是,则进行步骤7,否则重复步骤2)至步骤5);7)用清洗后的住户用电数据替换原住户用电数据。2.根据权利要求1所述的基于贝叶斯算法的住户用电数据清洗方法,其特征在于,所述步骤3)中...
【专利技术属性】
技术研发人员:陈小强,
申请(专利权)人:江苏圣通电力新能源科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。