一种电费数据预处理方法、装置、终端设备及介质制造方法及图纸

技术编号：30173253 阅读：14 留言：0更新日期：2021-09-25 15:32

本发明专利技术公开了一种电费数据预处理方法、装置、终端设备及介质，该方法包括：获取第一电费数据集，按照是否有缺失值字段将第一电费数据集划分为完备电费数据子集和非完备电费数据子集；利用K

全部详细技术资料下载

【技术实现步骤摘要】
一种电费数据预处理方法、装置、终端设备及介质

[0001]本专利技术涉及人工智能及数据处理
，尤其涉及一种电费数据预处理方法、装置、终端设备及介质。

技术介绍

[0002]电费数据差错筛查和分析是电网公司最基础的工作之一，通过对海量的用户用电数据进行筛查，识别用户异常用电行为，从而加强对用户用电行为监管的能效。其中，在进行电费数据筛查工作中，电费数据预处理是必不可缺的环节。现有的数据预处理方法主要为基于规则判断的数据预处理方法，即把可能出现电费数据差错的原因总结为100多条电费数据差错判断规则，然后通过该规则对海量的电费数据进行预处理，筛选出电费差错数据，并将该差错数据用于后期的电费差错复核工作。然而，这种基于规则的电费数据预处理方法，不仅要花费大量的人力物力，同时也无法保证数据预处理的有效性，因此使得对差错数据的命中率十分低下，进一步增添了电费复核人员的工作负担。

技术实现思路

[0003]本专利技术的目的在于提供一种电费数据预处理方法、装置、终端设备及介质，以解决现有技术中电费预处理方法存在的成本高、耗时长以及识别结果准确性低的问题。
[0004]为实现上述目的，本专利技术提供一种电费数据预处理方法，包括：
[0005]获取第一电费数据集，按照是否有缺失值字段将所述第一电费数据集划分为完备电费数据子集和非完备电费数据子集；
[0006]利用K
‑
means聚类算法对所述完备电费数据子集进行聚类，生成聚类结果；
[0007]根据所述聚类结果，利...

【技术保护点】

【技术特征摘要】
1.一种电费数据预处理方法，其特征在于，包括：获取第一电费数据集，按照是否有缺失值字段将所述第一电费数据集划分为完备电费数据子集和非完备电费数据子集；利用K
‑
means聚类算法对所述完备电费数据子集进行聚类，生成聚类结果；根据所述聚类结果，利用KNN算法对非完备电费数据子集中的缺失值进行填充，将填充后的非完备电费数据子集与所述完备电费数据子集组合得到第二电费数据集；对所述第二电费数据集进行分层采样，生成采样结果。2.根据权利要求1所述的电费数据预处理方法，其特征在于，所述对所述第二电费数据集进行分层采样，生成采样结果，包括：根据所述聚类结果确定最优聚类个数K，将所述第二电费数据集聚为K类，并获取各个类的中心值及各个类中包含的电费数据的个数；根据所述电费数据的个数，利用K
‑
means分层最近邻欠采样算法对K类电费数据进行分层采样，将每个类的中心值的最近邻与少数类的电费数据合并，生成分层最近邻欠采样结果。3.根据权利要求2所述的电费数据预处理方法，其特征在于，利用K
‑
means聚类算法将所述第二电费数据集聚为K类。4.根据权利要求2或3所述的电费数据预处理方法，其特征在于，所述根据所述聚类结果确定最优聚类个数K，包括：根据所述聚类结果，获取多数类的电费数据样本的分布；根据分布结果，确定类的个数与各个类畸变程度之和的函数关系，利用所述函数关系确定所述最优聚类个数k。5.一种电费数据预处理装置，其特征在于，包括：划分单元，用于获取第一电费数据集，按照是否有缺失值字段将所述第一电费数据集划分为完备电费数据子集和非完备电费数据子集；聚类单元，用于利用K
‑
means聚类算法对所...

【专利技术属性】
技术研发人员：康峰，覃浩，周纯，陶飞达，冼文祥，伍广斌，白艳玲，舒畅，冯亮新，苏立伟，杨英勃，皮伟丰，廖云亭，
申请(专利权)人：广东电网有限责任公司客户服务中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人