一种电费数据预处理方法、装置、终端设备及介质制造方法及图纸

技术编号:30173253 阅读:14 留言:0更新日期:2021-09-25 15:32
本发明专利技术公开了一种电费数据预处理方法、装置、终端设备及介质,该方法包括:获取第一电费数据集,按照是否有缺失值字段将第一电费数据集划分为完备电费数据子集和非完备电费数据子集;利用K

【技术实现步骤摘要】
一种电费数据预处理方法、装置、终端设备及介质


[0001]本专利技术涉及人工智能及数据处理
,尤其涉及一种电费数据预处理方法、装置、终端设备及介质。

技术介绍

[0002]电费数据差错筛查和分析是电网公司最基础的工作之一,通过对海量的用户用电数据进行筛查,识别用户异常用电行为,从而加强对用户用电行为监管的能效。其中,在进行电费数据筛查工作中,电费数据预处理是必不可缺的环节。现有的数据预处理方法主要为基于规则判断的数据预处理方法,即把可能出现电费数据差错的原因总结为100多条电费数据差错判断规则,然后通过该规则对海量的电费数据进行预处理,筛选出电费差错数据,并将该差错数据用于后期的电费差错复核工作。然而,这种基于规则的电费数据预处理方法,不仅要花费大量的人力物力,同时也无法保证数据预处理的有效性,因此使得对差错数据的命中率十分低下,进一步增添了电费复核人员的工作负担。

技术实现思路

[0003]本专利技术的目的在于提供一种电费数据预处理方法、装置、终端设备及介质,以解决现有技术中电费预处理方法存在的成本高、耗时长以及识别结果准确性低的问题。
[0004]为实现上述目的,本专利技术提供一种电费数据预处理方法,包括:
[0005]获取第一电费数据集,按照是否有缺失值字段将所述第一电费数据集划分为完备电费数据子集和非完备电费数据子集;
[0006]利用K

means聚类算法对所述完备电费数据子集进行聚类,生成聚类结果;
[0007]根据所述聚类结果,利用KNN算法对非完备电费数据子集中的缺失值进行填充,将填充后的非完备电费数据子集与所述完备电费数据子集组合得到第二电费数据集;
[0008]对所述第二电费数据集进行分层采样,生成采样结果。
[0009]进一步地,所述对所述第二电费数据集进行分层采样,生成采样结果,包括:
[0010]根据所述聚类结果确定最优聚类个数K,将所述第二电费数据集聚为K类,并获取各个类的中心值及各个类中包含的电费数据的个数;
[0011]根据所述电费数据的个数,利用K

means分层最近邻欠采样算法对K类电费数据进行分层采样,将每个类的中心值的最近邻与少数类的电费数据合并,生成分层最近邻欠采样结果。
[0012]进一步地,利用K

means聚类算法将所述第二电费数据集聚为K类。
[0013]进一步地,所述根据所述聚类结果确定最优聚类个数K,包括:
[0014]根据所述聚类结果,获取多数类的电费数据样本的分布;
[0015]根据分布结果,确定类的个数与各个类畸变程度之和的函数关系,利用所述函数关系确定所述最优聚类个数k。
[0016]本专利技术还提供一种电费数据预处理装置,包括:
[0017]划分单元,用于获取第一电费数据集,按照是否有缺失值字段将所述第一电费数据集划分为完备电费数据子集和非完备电费数据子集;
[0018]聚类单元,用于利用K

means聚类算法对所述完备电费数据子集进行聚类,生成聚类结果;
[0019]填充单元,用于根据所述聚类结果,利用KNN算法对非完备电费数据子集中的缺失值进行填充,将填充后的非完备电费数据子集与所述完备电费数据子集组合得到第二电费数据集;
[0020]采样单元,用于对所述第二电费数据集进行分层采样,生成采样结果。
[0021]进一步地,所述采样单元,还用于:
[0022]根据所述聚类结果确定最优聚类个数K,将所述第二电费数据集聚为K类,并获取各个类的中心值及各个类中包含的电费数据的个数;
[0023]根据所述电费数据的个数,利用K

means分层最近邻欠采样算法对K类电费数据进行分层采样,将每个类的中心值的最近邻与少数类的电费数据合并,生成分层最近邻欠采样结果。
[0024]进一步地,所述采样单元,还用于:利用K

means聚类算法将所述第二电费数据集聚为K类。
[0025]进一步地,所述采样单元,还用于:
[0026]根据所述聚类结果,获取多数类的电费数据样本的分布;
[0027]根据分布结果,确定类的个数与各个类畸变程度之和的函数关系,利用所述函数关系确定最优聚类个数k。
[0028]本专利技术还提供一种终端设备,包括:
[0029]一个或多个处理器;
[0030]存储器,与所述处理器耦接,用于存储一个或多个程序;
[0031]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上任一项所述的电费数据预处理方法。
[0032]本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的电费数据预处理方法。
[0033]相对于现有技术,本专利技术的有益效果在于:
[0034]1)本专利技术先通过K

means算法对原始完备电费数据子集进行聚类分析,然后在得到聚类结果之后使用KNN来进行缺失值填充,不经操作简单、同时提高了数据处理的效率以及缺失值填充的准确率;
[0035]2)本专利技术通过K

means分层最近邻欠采样算法对电费数据进行了分层最近邻欠采样,确保了数据采样的合理性及有效性,有效缓解了电费数据样本不平衡问题。
附图说明
[0036]为了更清楚地说明本专利技术的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1是本专利技术某一实施例提供的电费数据预处理方法的流程示意图;
[0038]图2是图1中步骤S40的子步骤的流程示意图;
[0039]图3是本专利技术某一实施例提供的电费数据预处理装置的结构示意图;
[0040]图4是本专利技术某一实施例提供的终端设备的结构示意图。
具体实施方式
[0041]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
[0043]应当理解,在本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0044]术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电费数据预处理方法,其特征在于,包括:获取第一电费数据集,按照是否有缺失值字段将所述第一电费数据集划分为完备电费数据子集和非完备电费数据子集;利用K

means聚类算法对所述完备电费数据子集进行聚类,生成聚类结果;根据所述聚类结果,利用KNN算法对非完备电费数据子集中的缺失值进行填充,将填充后的非完备电费数据子集与所述完备电费数据子集组合得到第二电费数据集;对所述第二电费数据集进行分层采样,生成采样结果。2.根据权利要求1所述的电费数据预处理方法,其特征在于,所述对所述第二电费数据集进行分层采样,生成采样结果,包括:根据所述聚类结果确定最优聚类个数K,将所述第二电费数据集聚为K类,并获取各个类的中心值及各个类中包含的电费数据的个数;根据所述电费数据的个数,利用K

means分层最近邻欠采样算法对K类电费数据进行分层采样,将每个类的中心值的最近邻与少数类的电费数据合并,生成分层最近邻欠采样结果。3.根据权利要求2所述的电费数据预处理方法,其特征在于,利用K

means聚类算法将所述第二电费数据集聚为K类。4.根据权利要求2或3所述的电费数据预处理方法,其特征在于,所述根据所述聚类结果确定最优聚类个数K,包括:根据所述聚类结果,获取多数类的电费数据样本的分布;根据分布结果,确定类的个数与各个类畸变程度之和的函数关系,利用所述函数关系确定所述最优聚类个数k。5.一种电费数据预处理装置,其特征在于,包括:划分单元,用于获取第一电费数据集,按照是否有缺失值字段将所述第一电费数据集划分为完备电费数据子集和非完备电费数据子集;聚类单元,用于利用K

means聚类算法对所...

【专利技术属性】
技术研发人员:康峰覃浩周纯陶飞达冼文祥伍广斌白艳玲舒畅冯亮新苏立伟杨英勃皮伟丰廖云亭
申请(专利权)人:广东电网有限责任公司客户服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1