当前位置: 首页 > 专利查询>天津大学专利>正文

一种时序数据集的预处理方法及其应用技术

技术编号:31978907 阅读:6 留言:0更新日期:2022-01-20 01:33
本发明专利技术提供了一种时序数据集的预处理方法及其应用,包括以下步骤:S1、获取时序变化的原始数据集;S2、对步骤S1中得到的原始数据集进行小波分解,得到低频数组和高频数组;S3:采用K

【技术实现步骤摘要】
一种时序数据集的预处理方法及其应用


[0001]本专利技术涉及环境工程气体污染研究领域,具体涉及一种时序数据集的预处理方法及其应用。

技术介绍

[0002]气态污染物随时间动态变化,没有特定的规律性和稳定性,气体监测站在数据采集过程中常常受到环境变化和仪器性能等因素的影响,导致监测数据出现异常,使监测结果呈现出非平稳、非线性随时间变化的特征。在后续的数据分析中,异常数据易对模型的精度造成严重影响,对气体污染特征分析与研究带来了新的挑战。
[0003]对于异常数据,常见的处理方式是基于统计、距离、密度或聚类等方法识别离散点,如其中一种方法为在水质预测中使用线性插值法对异常值进行替换,使用Savitzky

Golay滤波器法进行降噪处理,经处理的数据集成为连续且平滑的时间序列;其中另一种方法为通过随机森林和完全集合经验模态分解法对感应传输温盐深测量仪数据进行预处理,将复杂的时间序列根据其变化特征细化为高低频基函数,进而对高频异常部分识别与去除,处理后信噪比提升约9dB,仪器测量准确性提升1.3倍。可见加强监测数据特征辨识和异常值处理,是气体污染研究的基础和前提,然而传统的数据预处理方法普遍将各个数据作为独立的对象看待,缺乏对数据时序关联性的分析和学习,即选用简单的线性插值或聚类法,直接对缺失数据进行补全或对异常数据进行替换,使得数据集预处理效果较差。并且,传统数据预处理方法具有较强的针对性,对后续分析任务的类型限制较多。
[0004]因此,一种尽可能准确地补全或还原序列中的缺失或异常数据的、更加通用的数据预处理方法成为当前建立气体监测数据库的关键问题。有鉴于此,本专利技术提供一种解决上述问题的技术方案。

技术实现思路

[0005]本专利技术的一目的在于:提供一种时序数据集的预处理方法,以解决目前时序监测过程中数据存在连续异常和缺失而降低监测数据准确度的问题,通过本专利技术的预处理方法,极大可能的补全或还原了序列中的缺失或异常数据,为具有波动性、时序性和复杂性的气体监测数据提供方法指导。
[0006]为了实现上述目的,本专利技术采用以下技术方案:
[0007]一种时序数据集的预处理方法,包括以下步骤:
[0008]S1、获取时序变化的原始数据集;
[0009]S2、对步骤S1中得到的原始数据集进行小波分解,得到低频数组和高频数组;
[0010]S3:采用K

means算法对步骤S2中得到的高频数组中的异常数值进行识别及处理,得到处理后的数据集;完成对时序数据集的预处理。
[0011]优选的,步骤S1中,所述原始数据集中至少包括2个因素变量。
[0012]优选的,步骤S2中,所述小波分解的函数包括haar小波、dbN小波、symN小波、coifN
小波、biorN小波中的至少一种,N为分解的层数,N≥2。
[0013]优选的,dbN小波的函数公式为:
[0014][0015]其中:a>0,为伸缩因子;v为平移因子;R为实数积分域;f(t)为分析信号函数;Ψa,v(t)称为基本小波。
[0016]优选的,所述高频数组至少有3组。
[0017]优选的,步骤S3中,K

means算法的步骤为:确定要生成的簇的数目K,在原始数据集D={X1,X2,...,X
m
}中随机选取K个对象作为初始聚类的质心Z
j
,接着计算每个数据X
i
与K个质心间的欧式距,并将各数据划分至其所距最近质心的所在簇,得到K个簇C
j
,然后逐步计算新簇质心,重复上述步骤,直到聚类准则函数收敛,所述聚类准则函数为:其中,j=1,2,3,...,K;i=1,2,...,m;K∈N
*
,m∈N
*

[0018]优选的,步骤S3中,对异常数值的处理方法包括直接删除、插值修正、不处理中的至少一种。
[0019]优选的,对处理后的数据集进行重构,得到预处理后的时序数据集。
[0020]本专利技术的另一目的在于,提供一种上述任一项所述的时序数据集的预处理方法在气体监测数据中的应用。
[0021]相比于现有技术,本专利技术的有益效果在于:本专利技术提供的预处理方法,先采用小波分解对原始数据集进行处理,得到一个低频部分和高频部分,然后再将该低频部分再次分解为一个低频的粗略逼近部分和一个高频的细节部分,重复上述分解方法,进而根据不同频率的数据信号分解得到高频数组和低频数组,接着再采用K

means算法对高频数组中的异常数值进行识别,以剔除、修正等方法对其进行处理,最终得到预处理后的数据集。本方法可有效提高原始数据集的准确度,降低异常数据对后续分析的影响,解决了目前时序监测过程中数据存在连续异常和缺失而降低监测数据准确度的问题。
附图说明
[0022]图1为本专利技术预处理方法的流程图。
[0023]图2为五层小波分解的原理图。
[0024]图3为实施例1小波分解后气体浓度数据示意图。
[0025]图4为实施例1K

means算法异常值识别结果图。
[0026]图5为实施例1NH3浓度数据预处理前后对比图。
具体实施方式
[0027]为使本专利技术的技术方案和优点更加清楚,下面将结合具体实施方式和说明书附图,对本专利技术及其有益效果作进一步详细的描述,但本专利技术的实施方式不限于此。
[0028]本专利技术提供的时序数据集的预处理方法主要是在气体监测数据中的应用。当然,对于其他存在随机噪声和异常数据的集合,也可以采用本专利技术的预处理方法。
[0029]该时序数据集的预处理方法,如图1所示,包括以下步骤:
[0030]S1、获取时序变化的原始数据集;
[0031]S2、对步骤S1中得到的原始数据集进行小波分解,得到低频数组和高频数组;
[0032]S3:采用K

means算法对步骤S2中得到的高频数组中的异常数值进行识别及处理,得到处理后的数据集;完成对时序数据集的预处理。
[0033]其中,小波分解的过程为:根据原始数据集特征,选用适宜的小波基函数对数据低频部分进行处理,把每层低频信号再次分解成一个低频的粗略逼近部分和一个高频的细节部分,可如图2所示,Y(t)为原始数据信息,A(t)数组表示每层低频数据部分,对应原始数据的大体轮廓;D(t)数组表示每层高频数据部分,对应原始数据的细节。
[0034]相比于一维的原始序列,小波分解即是将不同频率的数据信号分解为高频信号和低频信号,不同频域数组更能有效地、准确地表达数据的潜在信息。随着变化频率依次降低,主频谱向低频集中靠拢,大量的有用信息主要集中在最低频谱,代表了原始数据集的轮廓,可反应因素变量的基本变化趋势;而大量的异常值成分则主要聚集在高频数组,代表所述原始数据集细节。
[0035]K

me本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时序数据集的预处理方法,其特征在于,包括以下步骤:S1、获取时序变化的原始数据集;S2、对步骤S1中得到的原始数据集进行小波分解,得到低频数组和高频数组;S3:采用K

means算法对步骤S2中得到的高频数组中的异常数值进行识别及处理,得到处理后的数据集;完成对时序数据集的预处理。2.根据权利要求1所述的时序数据集的预处理方法,其特征在于,步骤S1中,所述原始数据集中至少包括2个因素变量。3.根据权利要求1所述的时序数据集的预处理方法,其特征在于,步骤S2中,所述小波分解的函数包括haar小波、dbN小波、symN小波、coifN小波、biorN小波中的至少一种,N为分解的层数,N≥2。4.根据权利要求3所述的时序数据集的预处理方法,其特征在于,dbN小波的函数公式为:其中:a>0,为伸缩因子;v为平移因子;R为实数积分域;f(t)为分析信号函数;Ψa,v(t)称为基本小波。5.根据权利要求3所述的时序数据集的预处理方法,其特征在于,所述高频数组至少有3组。6.根据权利要求1或5所述的时序数据集的预处理方法...

【专利技术属性】
技术研发人员:王晓玲王若楠李松敏佟大威乔天诚郑雅致陈一天
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1