一种针对工业时序不平衡数据的时间序列数据增强方法技术

技术编号:37419929 阅读:10 留言:0更新日期:2023-04-30 09:42
本发明专利技术公开了一种针对工业不平衡数据的时间序列数据增强方法,通过平均欧氏距离,将少数类数据分为近多数类数据集n

【技术实现步骤摘要】
一种针对工业时序不平衡数据的时间序列数据增强方法


[0001]本专利技术涉及工业领域和机器学习方法,尤其涉及一种采用机器学习方法对工业时序不平衡数据的时间序列数据增强方法。

技术介绍

[0002]在工业领域,由于异常时序样本的罕见性、保密性、不完整性以及部分数据可解释性差等原因,通常很难获得大量的、可解释的异常数据。因此,如何根据少量的异常时序样本,去进行工业时序数据的异常检测,是相关领域专家研究的热点。现有解决时序数据类不平衡问题的主流方法是利用已有的数据集进行数据增强,丰富原数据的样本数量以及特征数量。已有的典型方案主要为时域频域变换、基于分解、基于机器学习和记忆模型建模等方法。
[0003]时域频域以及两者混合的方法为基础的方法,主要将异常数据在时域或者频域上进行切片,缩放添加噪声等操作,生成新的异常数据;除了基础方法以外,也有统计模型高级方法,比如专利CN202011564567.3公开了通过拟合时间t的值与之前时间步的值的依赖来描述时序分布,进而通过基础的扰动生成新的时序样本。此外还有基于插值和外推的方法;专利CN202110670088.8中公开了利用样本间的欧几里得距离,采用SMOTE的方式在样本间生成基于欧几里得距离产生的样本等。但是上述方法并不完全适用于工业领域的时序数据,存在以下问题:
[0004](1)简单直接的合成数据,容易混淆样本界限,可能使模型对于处于样本界限附近的数据的学习困难;
[0005](2)由于工业时序数据大多属于离散型时序数据,异常持续时间较短,而且此类数据整体时间步长较短,因此基础方法比如切片,窗口扰动等,容易破坏时序数据的原始特征;
[0006](3)基于统计模型的方法大多具有复杂且众多的参数,需要大量原始数据进行训练,且工业时序异常数据具有很强的随机性,因此该类方法并不适用于工业时序数据集。

技术实现思路

[0007]专利技术目的:本专利技术旨在提供一种解决模型过拟合和泛化能力差问题并提高各种分类器对工业不平衡时序数据的预测效果的时间序列数据增强方法的时间序列数据增强方法。
[0008]技术方案:本专利技术所述的针对工业不平衡数据的时间序列数据增强方法,步骤如下:
[0009]S1、将不平衡时序数据集划分为少数类数据集M={m1,m2,...,m
m
},其中,m
i
表示第i个子序列;多数类数据集N={n1,n2,...,n
n
},其中,n
j
表示第j个子序列;设置近邻样本数量参数K;确定需要生成的样本总数量num;
[0010]S2、根据平均欧氏距离D1、D2的大小,将M划分为近多数类数据集N

Maj,样本数量
为n_maj;近少数数据集N

Min,样本数量为n

min;
[0011]S3、计算N

Maj的子序列之间的DTW距离,并组成DTW距离矩阵E3;计算N

Min的子序列之间的DTW距离,并组成DTW距离矩阵E4;确定N

Maj需要生成的序列数量为num1,确定N

Min需要生成的数量为num2;
[0012]S4、随机选取N

Maj中的子序列a
p
,通过E3的对应元素位置,筛选a
p
的K个近邻子序列,组成近邻序列集P={a
p1
,a
p2
,...,a
pK
};
[0013]S4.1、通过a
p
和P={a
p1
,a
p2
,...,a
pK
}之间的DTW规整对齐,得到临时对齐序列集C
p
={a
p

avg1
,a
p

avg2
,...,a
p

avgK
};
[0014]S4.2、根据子序列a
p
及其近邻序列集C
p
,确定距离权重集W;
[0015]S4.3、:按照距离权重集W,对临时对齐序列集C
p
求取加权平均值,构成新的平均序列a
p

avg

[0016]S4.4、将新的平均序列a
p

avg
加入N

Maj中,并与N

Maj中每个子序列进行DTW计算,更新DTW距离矩阵E3;
[0017]S4.5、重复步骤S4到S4.4,直到生成num1条新数据;
[0018]S5、随机选取N

Min中的第q个子序列b
q
,通过E4的对应元素位置,筛选b
q
的K个近邻子序列,组成近邻序列集Q={b
q1
,b
q2
,...,b
qK
};
[0019]S5.1、通过b
q
和Q={b
q1
,b
q2
,...,b
qK
}之间的DTW规整对齐,得到临时对齐序列集C
q
={b
q

avg1
,b
q

avg2
,...,b
q

avgK
};
[0020]S5.2、根据子序列b
q
及其近邻序列集C
q
,确定距离权重集W;
[0021]S5.3、按照距离权重集W,对临时对齐序列集求取加权平均值,构成平均序列b
q

avg

[0022]S5.4、在b
q

avg
的每个时间步上添加样本随机差异rand_diff,形成新的序列b
q

new

[0023]S5.5、将新生成序列b
q

new
加入N

Min中,并与N

Min中每个子序列进行DTW计算,同时更新DTW距离矩阵E4和N

Min;
[0024]S5.6、重复步骤S5到S5.5,直到生成num2条新数据;
[0025]S6、合并N

Min和N

Maj,组成新的少数类数据集M

,将新的数据集M

与N合并,组成平衡数据集。
[0026]进一步的,步骤S2中,D1表示子序列m
i
与少数类数据集M中K个近邻子序列的平均欧氏距离;D2表示子序列m
i
与多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对工业时序不平衡数据的时间序列数据增强方法,其特征在于,包括以下步骤:S1、将不平衡时序数据集划分为少数类数据集M={m1,m2,...,m
m
},其中,m
i
表示第i个子序列;多数类数据集N={n1,n2,...,n
n
},其中,n
j
表示第j个子序列;设置近邻样本数量参数K;确定需要生成的样本总数量num;S2、根据平均欧氏距离D1、D2的大小,将M划分为近多数类数据集N

Maj,样本数量为n_maj;近少数数据集N

Min,样本数量为n_min;S3、计算N

Maj的子序列之间的DTW距离,并组成DTW距离矩阵E3;计算N

Min的子序列之间的DTW距离,并组成DTW距离矩阵E4;确定N

Maj需要生成的序列数量为num1,确定N

Min需要生成的数量为num2;S4、随机选取N

Maj中的子序列a
p
,通过E3的对应元素位置,筛选a
p
的K个近邻子序列,组成近邻序列集P={a
p1
,a
p2
,...,a
pK
};S4.1、通过a
p
和P={a
p1
,a
p2
,...,a
pK
}之间的DTW规整对齐,得到临时对齐序列集C
p
={a
p

avg1
,a
p

avg
2,...,a
p

avgK
};S4.2、根据子序列a
p
及其近邻序列集C
p
,确定距离权重集W;S4.3、:按照距离权重集W,对临时对齐序列集C
p
求取加权平均值,构成新的平均序列a
p

avg
;S4.4、将新的平均序列a
p

avg
加入N

Maj中,并与N

Maj中每个子序列进行DTW计算,更新DTW距离矩阵E3;S4.5、重复步骤S4到S4.4,直到生成num
I
条新数据;S5、随机选取N

Min中的第q个子序列b
q
,通过E4的对应元素位置,筛选b
q
的K个近邻子序列,组成近邻序列集Q={b
q1
,b
q2
,...,b
qK
};S5.1、通过b
q
和Q={b
q1
,b
q2
,...,b
qK
}之间的DTW规整对齐,得到临时对齐序列集C
q
={b
q

avg1
,b
q

avg2
,...,b
q

avgK
};S5.2、根据子序列b
q
及其近邻序列集C
q
,确定距离权重集W;S5.3、按照距离权重集W,对临时对齐序列集求取加权平均值,构成平均序列b
q

avg
;S5.4、在b
q

avg
的每个时间步上添加样本随机差异rand_diff,形成新的序列b
q

new
;S5.5、将新生成序列b
q

new
加入N

Min中,并与N

Min中每个子序列进行DTW计算,同时更新DTW距离矩阵E4和N

Min;S5.6、重复步骤S5到S5.5,直到生成num2条新数据;S6、合并N

Min和N

Maj,组成新的少数类数据集M

,将新的数据集M

与N合并,组成平衡数据集。2.根据权利要求1所述针对工业不平衡数据的时间序列数据增强方法,其特征在于,步骤S2中,D1表示子序列m
...

【专利技术属性】
技术研发人员:苏世杰杨鑫张元春张建唐文献陈赟殷宝吉
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1