基于DBSCAN聚类的不平衡停电数据集混合采样方法技术

技术编号:36349740 阅读:26 留言:0更新日期:2023-01-14 18:04
本发明专利技术公开了一种基于DBSCAN聚类的不平衡停电数据集混合采样方法,包括以下步骤:S1.对不平衡停电数据集进行DBSCAN聚类,通过DBSCAN聚类将不平衡停电数据集划分为多个不同的簇;S2.遍历每一个簇并计算簇中样本的不平衡比,不平衡比等于零的簇进行随机采样生成子数据集,不平衡比大于零的簇进行邻域清理规则欠采样和SMOTE过采样生成子数据集;S3.将经过采样处理后生成的各子数据集合并,生成新的平衡停电数据集。本发明专利技术通过DBSCAN聚类将不平衡停电数据集划分为多个不同的簇,遍历每个簇并计算簇中样本的不平衡比,根据不平衡比确定是对簇进行随机采样还是进行邻域清理规则欠采样和SMOTE过采样而生成子数据集,能够在降低数据不平衡程度的同时,尽可能地避免有效信息的丢失。息的丢失。息的丢失。

【技术实现步骤摘要】
基于DBSCAN聚类的不平衡停电数据集混合采样方法


[0001]本专利技术属于新型电力
,具体地说,涉及一种对不平衡的配电网停电数据集进行采样处理的方法。

技术介绍

[0002]电力系统作为国家安全的重要保障与国民经济的发展基石,其运行状态与气象环境有着密不可分的联系。极端天气往往会引发配电线路的损坏和电力设备故障,导致局部大范围的停电事故,对配网的安全稳定运行带来了极大的风险。因此,各级供电部门有必要建立应对各类极端天气的停电预测模型,从而健全完善应急防灾救灾的响应机制。然而,在配电网中,线路跳闸停电属于极小概率事件,比例极不平衡的停电数据和非停电数据会严重影响停电概率预测模型的准确性。因此,如何对不平衡的配电网停电数据集进行处理,从而保证停电预测模型能够准确实现对于潜在事故的识别和预警,成为了亟需解决的难题。
[0003]目前常用的不平衡数据集处理方法有基于采样的方法和基于模型算法两类。其中,基于采样的方法包括欠采样和过采样。欠采样方法的基本思想是减少多数样本,常见方法包括邻域清理规则、NearMiss等。邻域清理规则通过采取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于DBSCAN聚类的不平衡停电数据集混合采样方法,其特征在于,包括以下步骤:S1.对不平衡停电数据集进行DBSCAN聚类,通过DBSCAN聚类将不平衡停电数据集划分为多个不同的簇;S2.遍历每一个簇并计算簇中样本的不平衡比,不平衡比等于零的簇进行随机采样生成子数据集,不平衡比大于零的簇进行邻域清理规则欠采样和SMOTE过采样生成子数据集;S3.将经过采样处理后生成的各子数据集合并,生成新的平衡停电数据集。2.根据权利要求1所述的基于DBSCAN聚类的不平衡停电数据集混合采样方法,其特征在于,步骤S1中,对不平衡停电数据集D={(x1,y1),(x2,y2),

,(x
i
,y
i
)}进行DBSCAN聚类,停电特征样本x
i
∈X∈R
K
,X为停电特征样本集合,R
K
为K维实数域,样本的停电标签y
i
∈(0,1),具体步骤如下:S11.选取不平衡停电数据集D中任意一个样本x
i
,找到其∈

邻域内所有点构成的子样本集D
ε
(x
i
),样本x
i
的子样本集D
ε
(x
i
)表示为:D
ε
(x
i
)={x
j
∈D|L(x
i
,x
j
)≤ε}其中,L(x
i
,x
j
)表示样本x
i
与样本x
j
的欧几里得距离,ε表示样本x
i
的∈

邻域的半径;S12.若样本x
i
的子样本集D
ε
(x
i
)中的样本数量N
ε
(x
i
)大于或等于样本x
i
的∈

邻域中样本个数的阈值N
min
,则称样本x
i
为核心样本,并将其划分到新的簇C
i
中;S13.若子样本集D
ε
(x
i
)中的样本x
j
不属于任何簇,则将其划分到簇C
i
,若样本x
j
为核心样本,则对其∈

邻域内的子样本集D
ε
(x
j
)所有样本重复步骤S12,直到簇C
i
内不再有新的核心样本为止;S14.选取不平衡停电数据集D中其他没有被访问过的样本,重复步骤S11、步骤S12和步骤S13,直到不平衡停电数据集D中所有样本被访问过;S15.获得不平衡停电数据集进行DBSCAN聚类后的结果其中N
DBS
表示DBSCAN聚类后的总簇数。3.根据权利要求2所述的基于DBSCAN聚类的不平衡停电数据集混合采样方法,其特征在于,步骤S2中,遍历每一个簇C
i
(i=1,2,3,

,N
DBS
),且每一个簇均执行以下步骤:S21.将簇C
i
中的样本按照停电标签y
i
划分为多数非停电样本集C
maj
和少数停电样本集C
mino
,C
i
={(x1,y1),(x2,y2),

,(x
i
,y
i
)},样本x
i
∈X∈R
K
,停电标签y

【专利技术属性】
技术研发人员:周凯索智鑫罗林欢董选昌刘俊翔许中王红斌
申请(专利权)人:广东电网有限责任公司广州供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1