一种基于自主学习的不平衡时间序列数据分类方法技术

技术编号:29584761 阅读:56 留言:0更新日期:2021-08-06 19:43
本发明专利技术公开了一种基于自主学习的不平衡时间序列数据分类方法,具体包括如下步骤:步骤1,对不平衡时间序列数据进行处理,构造新样本;步骤2,对步骤1构造的新样本依次进行尺度变换及数据分段;步骤3,基于步骤2所得结果构建深度卷积神经网络模型;步骤4,对步骤3构建的神经网络模型进行训练,根据训练结果建立最优的时间序列数据分类模型进行时间序列分类。该方法解决了一般学习器绝对偏向多数类,从而造成少数类检测精度严重下降的问题,显著提高了不平衡时间序列数据集的分类精度。

【技术实现步骤摘要】
一种基于自主学习的不平衡时间序列数据分类方法
本专利技术属于时间序列数据分类
,涉及一种基于自主学习的不平衡时间序列数据分类方法。
技术介绍
时间序列是指按时间顺序排列的数据,这类数据能够直接反应出某一事物、现象随时间变化的状态或程度;时间序列数据挖掘是从大量的时间序列数据中提取人们事先不知道的、与时间属性相关的有用信息,用于指导人们的社会、经济、生活等活动。在航天测控领域,大量遥测数据以时间序列的形式呈现,这些工程数据可以直接反映飞行器的运行状态,对这些数据进行分类并挖掘出其中蕴含的信息和规律对于设备故障诊断技术的研究是非常重要的。因此时间序列数据分类问题成为工程和学术界的重要研究课题。不平衡时间序列数据是指少数类样本数量远小于多数类样本数量的数据集,如在航天测控工程中,测量得到的时间序列数据绝大多数都在正常范围内,只有极少数的异常值,这就是典型的不平衡时间序列数据集。在二分类问题中,这种数据分布的不平衡性会严重降低分类器的检测精度及性能,导致一般分类器的结果会严重偏向正常类,而对异常类的误检测率非常高。而在实际应用中,往往少数类才是我们关注的重点,如果将“故障”误诊为“正常”使故障的系统继续工作,将会导致无法预计的后果和损失。时间序列数据分类是时间序列数据挖掘的重要分支,该类问题不同于其它的数据分类,时间序列数据每个时间点上的信号值均不是独立存在的,在处理时要将整个时间序列数据作为一个输入。
技术实现思路
本专利技术的目的是提供一种基于自主学习的不平衡时间序列数据分类方法,该方法解决了一般学习器绝对偏向多数类,从而造成少数类检测精度严重下降的问题,显著提高了不平衡时间序列数据集的分类精度。本专利技术所采用的技术方案是,一种基于自主学习的不平衡时间序列数据分类方法,具体包括如下步骤:步骤1,对不平衡时间序列数据进行处理,构造新样本;步骤2,对步骤1构造的新样本依次进行尺度变换及数据分段;步骤3,基于步骤2所得结果构建深度卷积神经网络模型;步骤4,对步骤3构建的神经网络模型进行训练,根据训练结果建立最优的时间序列数据分类模型进行时间序列分类。本专利技术的特点还在于:步骤1的具体过程为:步骤1.1,设数据集表示为Q{qj(mj,nj)},j=1,2,…,u,其中mj表示第j个样本的时间,nj表示第j个样本的信号值,u表示数据集中数据的总数量;为了不平衡数据处理之后保证数据集的分布状态不变,定义数据集中的点为以下3类:聚集点、临界点、孤立点;步骤1.2,根据步骤1.1所得的数据集生成新样本。步骤1.1的具体过程为:为了保持数据集的分布状态,采用模糊聚类算法对数据集Q{qj(mj,nj)},j=1,2,…,u进行聚类,将数据集中的样本分为3个子集合:孤立点集Q1{q1j(m1j,n1j)},j=1,2,…,u1、临界点集Q2{q2j(m2j,n2j)},j=1,2,…,u2和聚集点集Q3{q3j(m3j,n3j)},j=1,2,…,u3,其中,u1表示孤立点的数量,u2表示临界点的数量,u3表示聚集点的数量,u1+u2+u3=u,由聚类算法可以得到孤立点集、临界点集和聚集点集的聚类中心分别为:R1(m′1,n′1)、R2(m′2,n′2)、R3(m′3,n′3)。步骤1.2的具体过程为:步骤1.2.1,令表示点集中第j1个样本点到聚类中心R1(m′1,n′1)的距离,表示点集中第j2个样本点到聚类中心R2(m′2,n′2)的距离,表示点集中第j3个样本点到聚类中心R3(m′3,n′3)的距离,则步骤1.2.2,对于点集中某一样本点q(m,n),此样本点q(m,n)到点集的聚类中心R1(m′1,n′1)的距离记为a,a=|n-n′1|,搜索如下公式(2)的所有样本点:并按照时间分量的早晚顺序进行排序,结果记为:q11(m11,n11),q12(m12,n12),…,q1g(m1g,n1g)(3);其中,g表示点集中满足公式(2)的样本点的数量。在样本q(m,n)与q11(m11,n11)、q12(m12,n12)、…、q1g(m1g,n1g)的信号分量值之间分别进行随机线性插值,构造新样本的信号分量值如下公式(4)所示:其中,rand(0,1)表示区间(0,1)内的一个随机数;构造新样本的时间分量值如下公式(5)所示:其中,m1h,h=1,2,…,g为样本q11(m11,n11)、q12(m12,n12)、…、q1g(m1g,n1g)中的时间戳,最终得到新生成的样本为步骤1.2.3,重复执行步骤1.2.2,直到遍历点集中的所有样本点;步骤1.2.4,分别对点集和执行如点集的步骤1.2.2~1.2.4的过程,分别得到根据点集和生成的新样本;步骤1.2.5,将步骤1.2.3得到的新样本和步骤1.2.4得到的新样本合并到步骤1.1中的数据集Q{qj(mj,nj)},j=1,2,…,u中,即可以产生新的数据集U表示经过不平衡数据处理后新生成的数据集中数据的总数量。步骤2的具体过程为:步骤2.1,尺度变换;对于数据集,其中mj表示第j个样本的时间戳,nj表示第j个样本的信号值,U表示数据集中数据的总数量;设表示第j个样本尺度变换后的信号值,令其中,步骤2.2,数据分段;将数据分为固定大小的片段,采用一种重叠分段的滑动窗口,即,窗口函数w的窗口长度为T,以固定步长t移动将序列分为等间隔的时间序列片段,用L表示分段后的时间序列片段集合,li表示分段后第i个时间序列片段,U为数据集中的数据总量,为分段后的段数,则每一段的范围为:步骤3的具体过程为:构建一种深度卷积神经网络模型,该模型包括一个输入层、4个隐藏层、1个全连接层、一个多层感知器以及分类器softmax;隐藏层包括卷积层C1、池化层S2、卷积层C3和池化层S4;输入层:将经过尺度变换、时间切片处理后得到的长度为T的时间序列数据片段{li},输入到网络模型中;深度卷积神经网络最终使用softmax分类器进行逻辑回归,输出信号属于类别1或者2的概率值Pr:其中,类别1表示正常值,类别2表示异常值。步骤4的具体过程为:使用步骤3所得的卷积神经网络模型对数据集进行训练,输出了每个时间片段属于每一类别的概率,使用交叉熵作为代价函数,如下公式(9)所示:H=-∑yklogpk(9);其中,yk表示期望的标签类型,pk为实际的输出;以自适应学习率优化算法AdamOptimizer作为反向传播训练算法进行误差的最小化训练,得到最优的权重参数,根据最优的权重参数建立最优的时间序列数据分类模型进行时间序列分类。本专利技术的有益效果如下:1.本专利技术针对不平衡时间序列数据,从数据驱动的角度出发,提供了一种基本文档来自技高网...

【技术保护点】
1.一种基于自主学习的不平衡时间序列数据分类方法,其特征在于:具体包括如下步骤:/n步骤1,对不平衡时间序列数据进行处理,构造新样本;/n步骤2,对步骤1构造的新样本依次进行尺度变换及数据分段;/n步骤3,基于步骤2所得结果构建深度卷积神经网络模型;/n步骤4,对步骤3构建的神经网络模型进行训练,根据训练结果建立最优的时间序列数据分类模型进行时间序列分类。/n

【技术特征摘要】
1.一种基于自主学习的不平衡时间序列数据分类方法,其特征在于:具体包括如下步骤:
步骤1,对不平衡时间序列数据进行处理,构造新样本;
步骤2,对步骤1构造的新样本依次进行尺度变换及数据分段;
步骤3,基于步骤2所得结果构建深度卷积神经网络模型;
步骤4,对步骤3构建的神经网络模型进行训练,根据训练结果建立最优的时间序列数据分类模型进行时间序列分类。


2.根据权利要求1所述的一种基于自主学习的不平衡时间序列数据分类方法,其特征在于:所述步骤1的具体过程为:
步骤1.1,设数据集表示为Q{qj(mj,nj)},j=1,2,…,u,其中mj表示第j个样本的时间,nj表示第j个样本的信号值,u表示数据集中数据的总数量;为了不平衡数据处理之后保证数据集的分布状态不变,定义数据集中的点为以下3类:聚集点、临界点、孤立点;
步骤1.2,根据步骤1.1所得的数据集生成新样本。


3.根据权利要求2所述的一种基于自主学习的不平衡时间序列数据分类方法,其特征在于:所述步骤1.1的具体过程为:
为了保持数据集的分布状态,采用模糊聚类算法对数据集Q{qj(mj,nj)},j=1,2,…,u进行聚类,将数据集中的样本分为3个子集合:孤立点集Q1{q1j(m1j,n1j)},j=1,2,…,u1、临界点集Q2{q2j(m2j,n2j)},j=1,2,…,u2和聚集点集Q3{q3j(m3j,n3j)},j=1,2,…,u3,其中,u1表示孤立点的数量,u2表示临界点的数量,u3表示聚集点的数量,u1+u2+u3=u,由聚类算法可以得到孤立点集、临界点集和聚集点集的聚类中心分别为:R1(m′1,n′1)、R2(m′2,n′2)、R3(m′3,n′3)。


4.根据权利要求3所述的一种基于自主学习的不平衡时间序列数据分类方法,其特征在于:所述步骤1.2的具体过程为:
步骤1.2.1,令表示点集中第j1个样本点到聚类中心R1(m′1,n′1)的距离,表示点集中第j2个样本点到聚类中心R2(m′2,n′2)的距离,表示点集中第j3个样本点到聚类中心R3(m′3,n′3)的距离,则



步骤1.2.2,对于点集中某一样本点q(m,n),此样本点q(m,n)到点集的聚类中心R1(m′1,n′1)的距离记为a,a=|n-n′1|,搜索如下公式(2)的所有样本点:



并按照时间分量的早晚顺序进行排序,结果记为:
q11(m11,n11),q12(m12,n12),…,q1g(m1g,n1g)(3);
其中,g表示点集中满足公式(2)的样本点的数量。
在样本q(m,n)与q11(m11,n11)、q12(m12,n12)、…、q1g(m1g,n1g)的信号分量值之间分别进行随机线性插值,构造新样本的信号分量值如下公式(4)所示:



其中...

【专利技术属性】
技术研发人员:王晓峰胡姣姣郭小红习英卓周轩冯冰清
申请(专利权)人:西安理工大学中国西安卫星测控中心
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1