一种基于自主学习的不平衡时间序列数据分类方法技术

技术编号：29584761 阅读：56 留言：0更新日期：2021-08-06 19:43

本发明专利技术公开了一种基于自主学习的不平衡时间序列数据分类方法，具体包括如下步骤：步骤1，对不平衡时间序列数据进行处理，构造新样本；步骤2，对步骤1构造的新样本依次进行尺度变换及数据分段；步骤3，基于步骤2所得结果构建深度卷积神经网络模型；步骤4，对步骤3构建的神经网络模型进行训练，根据训练结果建立最优的时间序列数据分类模型进行时间序列分类。该方法解决了一般学习器绝对偏向多数类，从而造成少数类检测精度严重下降的问题，显著提高了不平衡时间序列数据集的分类精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自主学习的不平衡时间序列数据分类方法
本专利技术属于时间序列数据分类
，涉及一种基于自主学习的不平衡时间序列数据分类方法。
技术介绍
时间序列是指按时间顺序排列的数据，这类数据能够直接反应出某一事物、现象随时间变化的状态或程度；时间序列数据挖掘是从大量的时间序列数据中提取人们事先不知道的、与时间属性相关的有用信息，用于指导人们的社会、经济、生活等活动。在航天测控领域，大量遥测数据以时间序列的形式呈现，这些工程数据可以直接反映飞行器的运行状态，对这些数据进行分类并挖掘出其中蕴含的信息和规律对于设备故障诊断技术的研究是非常重要的。因此时间序列数据分类问题成为工程和学术界的重要研究课题。不平衡时间序列数据是指少数类样本数量远小于多数类样本数量的数据集，如在航天测控工程中,测量得到的时间序列数据绝大多数都在正常范围内，只有极少数的异常值，这就是典型的不平衡时间序列数据集。在二分类问题中，这种数据分布的不平衡性会严重降低分类器的检测精度及性能，导致一般分类器的结果会严重偏向正常类，而对异常类的误检测率非常高。而在实际应用中，往往少数类才是我们关注的重点，如果将“故障”误诊为“正常”使故障的系统继续工作,将会导致无法预计的后果和损失。时间序列数据分类是时间序列数据挖掘的重要分支，该类问题不同于其它的数据分类，时间序列数据每个时间点上的信号值均不是独立存在的，在处理时要将整个时间序列数据作为一个输入。
技术实现思路
本专利技术的目的是提供一种基于自主学习的不平衡时间序列数据分类方法...

【技术保护点】
1.一种基于自主学习的不平衡时间序列数据分类方法，其特征在于：具体包括如下步骤：/n步骤1，对不平衡时间序列数据进行处理，构造新样本；/n步骤2，对步骤1构造的新样本依次进行尺度变换及数据分段；/n步骤3，基于步骤2所得结果构建深度卷积神经网络模型；/n步骤4，对步骤3构建的神经网络模型进行训练，根据训练结果建立最优的时间序列数据分类模型进行时间序列分类。/n

【技术特征摘要】
1.一种基于自主学习的不平衡时间序列数据分类方法，其特征在于：具体包括如下步骤：
步骤1，对不平衡时间序列数据进行处理，构造新样本；
步骤2，对步骤1构造的新样本依次进行尺度变换及数据分段；
步骤3，基于步骤2所得结果构建深度卷积神经网络模型；
步骤4，对步骤3构建的神经网络模型进行训练，根据训练结果建立最优的时间序列数据分类模型进行时间序列分类。

2.根据权利要求1所述的一种基于自主学习的不平衡时间序列数据分类方法，其特征在于：所述步骤1的具体过程为：
步骤1.1，设数据集表示为Q{qj(mj,nj)}，j＝1,2,…,u，其中mj表示第j个样本的时间，nj表示第j个样本的信号值，u表示数据集中数据的总数量；为了不平衡数据处理之后保证数据集的分布状态不变，定义数据集中的点为以下3类：聚集点、临界点、孤立点；
步骤1.2，根据步骤1.1所得的数据集生成新样本。

3.根据权利要求2所述的一种基于自主学习的不平衡时间序列数据分类方法，其特征在于：所述步骤1.1的具体过程为：
为了保持数据集的分布状态，采用模糊聚类算法对数据集Q{qj(mj,nj)}，j＝1,2,…,u进行聚类，将数据集中的样本分为3个子集合：孤立点集Q1{q1j(m1j,n1j)}，j＝1,2,…,u1、临界点集Q2{q2j(m2j,n2j)}，j＝1,2,…,u2和聚集点集Q3{q3j(m3j,n3j)}，j＝1,2,…,u3，其中，u1表示孤立点的数量，u2表示临界点的数量，u3表示聚集点的数量，u1+u2+u3＝u，由聚类算法可以得到孤立点集、临界点集和聚集点集的聚类中心分别为：R1(m′1,n′1)、R2(m′2,n′2)、R3(m′3,n′3)。

4.根据权利要求3所述的一种基于自主学习的不平衡时间序列数据分类方法，其特征在于：所述步骤1.2的具体过程为：
步骤1.2.1，令表示点集中第j1个样本点到聚类中心R1(m′1,n′1)的距离，表示点集中第j2个样本点到聚类中心R2(m′2,n′2)的距离，表示点集中第j3个样本点到聚类中心R3(m′3,n′3)的距离，则

步骤1.2.2，对于点集中某一样本点q(m,n)，此样本点q(m,n)到点集的聚类中心R1(m′1,n′1)的距离记为a，a＝|n-n′1|，搜索如下公式(2)的所有样本点：

并按照时间分量的早晚顺序进行排序，结果记为：
q11(m11,n11),q12(m12,n12),…,q1g(m1g,n1g)(3)；
其中，g表示点集中满足公式(2)的样本点的数量。
在样本q(m,n)与q11(m11,n11)、q12(m12,n12)、…、q1g(m1g,n1g)的信号分量值之间分别进行随机线性插值，构造新样本的信号分量值如下公式(4)所示：

其中...

【专利技术属性】
技术研发人员：王晓峰，胡姣姣，郭小红，习英卓，周轩，冯冰清，
申请(专利权)人：西安理工大学，中国西安卫星测控中心，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人