一种数据异常检测方法及装置、存储介质及电子设备制造方法及图纸

技术编号:34328253 阅读:15 留言:0更新日期:2022-07-31 01:34
本申请提供了一种数据异常检测方法及装置、存储介质及电子设备,通过获取多个携带标记信息的用电数据和多个未携带标记信息的用电数据,利用携带标记信息的用电数据中的电流数据对第一分类器进行训练,利用携带标记信息的用电数据中的功率数据对第二分类器进行训练,从而利用已训练的第一分类器和第二分类器对未标记的用电数据进行异常检测,基于检测结果实现对未携带标记信息的用电数据的标记。可见,本技术方案,只需人工对部分用电数据进行标记,从而基于该部分携带标记的用电数据进行训练扩展,自动且准确实现对剩余未标记用电数据的异常检测及标记,从而降低了人力成本,且提高了数据异常检测的效率及准确率,从而提高了标记的效率及准确率。了标记的效率及准确率。了标记的效率及准确率。

【技术实现步骤摘要】
一种数据异常检测方法及装置、存储介质及电子设备


[0001]本申请涉及电力数据安全治理
,尤其涉及一种数据异常检测方法及装置、存储介质及电子设备。

技术介绍

[0002]目前,电力系统通过传感器设备对用电数据进行采集及监测,从而得到大量的用电数据,然而,由于设备、通讯及环境等各方面因素的影响,导致所采集到的用电数据可能会存在数据质量问题,因此,需要对用电数据进行异常检测,基于异常检测结果对用电数据进行是否异常的标记。
[0003]现有技术中,一般通过人工对所有的用电数据进行是否为异常数据的判断,以及人工基于判断结果进行标记,然而,由于数据量较大,需要消耗大量的时间成本和人力成本,从而异常检测效率低,从而导致标记效率低。

技术实现思路

[0004]本申请提供了一种数据异常检测方法及装置、存储介质及电子设备,目的在于解决现有的方案需要消耗大量的时间成本和人力成本,导致检测效率低,从而导致标记效率低的问题。
[0005]为了实现上述目的,本申请提供了以下技术方案:
[0006]一种数据异常检测方法,包括:
[0007]获取多个用电时序数据子序列;所述用电时序数据子序列包括多个用电数据,所述用电数据为电流数据或功率数据;
[0008]针对每个用电时序数据子序列,基于用电时序数据子序列包括的电流数据和功率数据,计算所述用电时序数据子序列的相关系数;
[0009]将各个用电数据发送至用户终端,以便于用户对各个用电数据中的部分用电数据进行标记;
[0010]获取用户终端反馈的结果;所述结果包括多个携带标记信息的用电数据和多个未携带标记信息的用电数据,所述标记信息用于指示用电数据是否为异常数据;
[0011]将各个携带标记信息的用电数据中的电流数据组成第一集合,并将各个携带标记信息的用电数据中的功率数据组成第二集合;
[0012]将各个未携带标记信息的用电数据组成第三集合;
[0013]从多个预设的分类器中,确定第一分类器和第二分类器;
[0014]利用所述第一集合,对所述第一分类器进行训练;
[0015]利用所述第二集合,对所述第二分类器进行训练;
[0016]利用已训练的第一分类器对所述第三集合包括的每个用电数据进行异常检测,得到所述第三集合包括的每个用电数据的第一检测结果,并利用已训练的第二分类器,对所述第三集合包括的每个用电数据进行异常检测,得到所述第三集合包括的每个用电数据的
第二检测结果;
[0017]针对所述第三集合包括的每个用电数据,基于所述用电数据的第一检测结果、第二检测结果和所述用电数据所属的用电时序数据子序列的相关系数,计算所述用电数据的目标检测结果,并在所述目标检测结果大于置信度阈值的情况下,基于所述目标检测结果对所述用电数据进行标记,并将已标记的所述用电数据添加至所述第一集合和所述第二集合中,并将所述用电样本数据从所述第三集合中删除;
[0018]判断当前的第三集合是否为空集,若当前的第三集合不为空集,则在已训练的第二分类器不满足停止训练条件时,基于当前的第一集合和当前第二集合,返回执行所述利用所述第一集合,对所述第一分类器进行训练的步骤,直至当前的第三集合为空集;其中,所述停止训练条件为当前的第三集合包括的用电数据所属的用电时序数据子序列的相关系数均不在预设区间内。
[0019]上述的方法,可选的,还包括:
[0020]若已训练的第二分类器满足停止训练条件,则利用当前的第一集合,对当前的第一分类器进行训练;
[0021]利用已训练的第一分类器对当前的第三集合包括的每个用电数据进行异常检测,得到当前第三集合包括的每个用电数据的目标检测结果;
[0022]针对所述第三集合包括的每个用电数据,若所述目标检测结果大于所述置信度阈值,则基于所述目标检测结果对所述用电数据进行标记,并将已标记的所述用电数据添加至所述第一集合中,并将所述用电样本数据从所述第三集合中删除;
[0023]判断当前的第三集合是否为空集,若所述第三集合不为空集,则基于当前的第一集合,返回执行所述利用当前的第一集合,对当前的第一分类器进行训练的步骤,直至当前的第三集合为空集。
[0024]上述的方法,可选的,所述获取用电时序数据子序列,包括:
[0025]获取用电时序数据序列;所述用电时序数据序列包括多个用电数据;
[0026]按预设时间窗口,将所述用电时序数据序列划分为多个用电时序数据子序列。
[0027]上述的方法,可选的,所述按预设时间窗口,将所述用电时序数据序列划分为多个用电时序数据子序列之前,还包括:
[0028]对所述用电时序数据序列包括的各个用电数据进行数据预处理。
[0029]上述的方法,可选的,所述对所述用电时序数据序列包括的各个用电数据进行数据预处理,包括:
[0030]基于所述用电时序数据序列包括的各个用电数据,计算每天的用电数据缺失率;
[0031]将小于预设缺失率阈值的用电数据缺失率对应的各个用电数据进行剔除;
[0032]利用线性插值法,对不小于预设缺失率阈值的用电数据缺失率对应的用电数据进行数据补全。
[0033]上述的方法,可选的,所述基于所述用电数据的第一检测结果、第二检测结果和所述用电数据所属的用电时序数据子序列的相关系数,计算所述用电数据的目标检测结果,包括:
[0034]计算所述第二检测结果和所述用电数据所属的用电时序数据子序列的相关系数之间乘积,得到初始检测结果;
[0035]对所述第一检测结果和所述初始检测结果进行求和计算,得到所述用电数据的目标检测结果。
[0036]上述的方法,可选的,所述从多个预设的分类器中,确定第一分类器和第二分类器,包括:
[0037]基于每个用电时序数据子序列包括的各个用电数据,计算每个用电时序数据子序列的特征统计值;
[0038]基于各个特征统计值,从多个预设的分类器中,确定第一分类器和第二分类器。
[0039]一种数据异常检测装置,包括:
[0040]第一获取单元,用于获取多个用电时序数据子序列;所述用电时序数据子序列包括多个用电数据,所述用电数据为电流数据或功率数据;
[0041]计算单元,用于针对每个用电时序数据子序列,基于用电时序数据子序列包括的电流数据和功率数据,计算所述用电时序数据子序列的相关系数;
[0042]第一标记单元,用于将各个用电数据发送至用户终端,以便于用户对各个用电数据中的部分用电数据进行标记;
[0043]第二获取单元,用于获取用户终端反馈的结果;所述结果包括多个携带标记信息的用电数据和多个未携带标记信息的用电数据,所述标记信息用于指示用电数据是否为异常数据;
[0044]第一组成单元,用于将各个携带标记信息的用电数据中的电流数据组成第一集合,并将各个携带标记信息的用电数据中的功率数据组成第二集合;
[0045]第二组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据异常检测方法,其特征在于,包括:获取多个用电时序数据子序列;所述用电时序数据子序列包括多个用电数据,所述用电数据为电流数据或功率数据;针对每个用电时序数据子序列,基于用电时序数据子序列包括的电流数据和功率数据,计算所述用电时序数据子序列的相关系数;将各个用电数据发送至用户终端,以便于用户对各个用电数据中的部分用电数据进行标记;获取用户终端反馈的结果;所述结果包括多个携带标记信息的用电数据和多个未携带标记信息的用电数据,所述标记信息用于指示用电数据是否为异常数据;将各个携带标记信息的用电数据中的电流数据组成第一集合,并将各个携带标记信息的用电数据中的功率数据组成第二集合;将各个未携带标记信息的用电数据组成第三集合;从多个预设的分类器中,确定第一分类器和第二分类器;利用所述第一集合,对所述第一分类器进行训练;利用所述第二集合,对所述第二分类器进行训练;利用已训练的第一分类器对所述第三集合包括的每个用电数据进行异常检测,得到所述第三集合包括的每个用电数据的第一检测结果,并利用已训练的第二分类器,对所述第三集合包括的每个用电数据进行异常检测,得到所述第三集合包括的每个用电数据的第二检测结果;针对所述第三集合包括的每个用电数据,基于所述用电数据的第一检测结果、第二检测结果和所述用电数据所属的用电时序数据子序列的相关系数,计算所述用电数据的目标检测结果,并在所述目标检测结果大于置信度阈值的情况下,基于所述目标检测结果对所述用电数据进行标记,并将已标记的所述用电数据添加至所述第一集合和所述第二集合中,并将所述用电样本数据从所述第三集合中删除;判断当前的第三集合是否为空集,若当前的第三集合不为空集,则在已训练的第二分类器不满足停止训练条件时,基于当前的第一集合和当前第二集合,返回执行所述利用所述第一集合,对所述第一分类器进行训练的步骤,直至当前的第三集合为空集;其中,所述停止训练条件为当前的第三集合包括的用电数据所属的用电时序数据子序列的相关系数均不在预设区间内。2.根据权利要求1所述的方法,其特征在于,还包括:若已训练的第二分类器满足停止训练条件,则利用当前的第一集合,对当前的第一分类器进行训练;利用已训练的第一分类器对当前的第三集合包括的每个用电数据进行异常检测,得到当前第三集合包括的每个用电数据的目标检测结果;针对所述第三集合包括的每个用电数据,若所述目标检测结果大于所述置信度阈值,则基于所述目标检测结果对所述用电数据进行标记,并将已标记的所述用电数据添加至所述第一集合中,并将所述用电样本数据从所述第三集合中删除;判断当前的第三集合是否为空集,若所述第三集合不为空集,则基于当前的第一集合,返回执行所述利用当前的第一集合,对当前的第一分类器进行训练的步骤,直至当前的第
三集合为空集。3.根据权利要求1所述的方法,其特征在于,所述获取用电时序数据子序列,包括:获取用电时序数据序列;所述用电时序数据序列包括多个用电数据;按预设时间窗口,将所述用电时序数据序列划分为多个用电时序数据子序列。4.根据权利要求3所述的方法,其特征在于,所述按预设时间窗口,将所述用电时序数据序列划分为多个用电时序数据子序列之前,还包括:对所述用电时序数据序列包括的各个用电数据进行数据预处理。5.根据权利要求4所述的方法,其特征在于,所述对所述用电时序数据序列包括的各个用电数据进行数据预处理,包括:基于所述用电时序数据序列包括的各个用电数据,计算每天的用电数据缺失率;将小于预设缺失率阈值的用电数据缺失率对应的各个用电数据进行剔除;利用线性插值法,...

【专利技术属性】
技术研发人员:彭梁英冯珺龚小刚黄建平王红凯陈浩张建松沈思琪
申请(专利权)人:国网浙江省电力有限公司信息通信分公司国网智能电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1