一种时序数据集的预处理方法及其应用技术

技术编号：31978907 阅读：6 留言：0更新日期：2022-01-20 01:33

本发明专利技术提供了一种时序数据集的预处理方法及其应用，包括以下步骤：S1、获取时序变化的原始数据集；S2、对步骤S1中得到的原始数据集进行小波分解，得到低频数组和高频数组；S3：采用K

全部详细技术资料下载

【技术实现步骤摘要】
一种时序数据集的预处理方法及其应用

[0001]本专利技术涉及环境工程气体污染研究领域，具体涉及一种时序数据集的预处理方法及其应用。

技术介绍

[0002]气态污染物随时间动态变化，没有特定的规律性和稳定性，气体监测站在数据采集过程中常常受到环境变化和仪器性能等因素的影响，导致监测数据出现异常，使监测结果呈现出非平稳、非线性随时间变化的特征。在后续的数据分析中，异常数据易对模型的精度造成严重影响，对气体污染特征分析与研究带来了新的挑战。
[0003]对于异常数据，常见的处理方式是基于统计、距离、密度或聚类等方法识别离散点，如其中一种方法为在水质预测中使用线性插值法对异常值进行替换，使用Savitzky
‑
Golay滤波器法进行降噪处理，经处理的数据集成为连续且平滑的时间序列；其中另一种方法为通过随机森林和完全集合经验模态分解法对感应传输温盐深测量仪数据进行预处理，将复杂的时间序列根据其变化特征细化为高低频基函数，进而对高频异常部分识别与去除，处理后信噪比提升约9dB，仪器测量准确性提升1.3倍。可见加强监测数据特征辨识和异常值处理，是气体污染研究的基础和前提，然而传统的数据预处理方法普遍将各个数据作为独立的对象看待，缺乏对数据时序关联性的分析和学习，即选用简单的线性插值或聚类法，直接对缺失数据进行补全或对异常数据进行替换，使得数据集预处理效果较差。并且，传统数据预处理方法具有较强的针对性，对后续分析任务的类型限制较多。
[0004]因此，一种尽可能准确地补全或还原序列中的缺失或异常数...

【技术保护点】

【技术特征摘要】
1.一种时序数据集的预处理方法，其特征在于，包括以下步骤：S1、获取时序变化的原始数据集；S2、对步骤S1中得到的原始数据集进行小波分解，得到低频数组和高频数组；S3：采用K
‑
means算法对步骤S2中得到的高频数组中的异常数值进行识别及处理，得到处理后的数据集；完成对时序数据集的预处理。2.根据权利要求1所述的时序数据集的预处理方法，其特征在于，步骤S1中，所述原始数据集中至少包括2个因素变量。3.根据权利要求1所述的时序数据集的预处理方法，其特征在于，步骤S2中，所述小波分解的函数包括haar小波、dbN小波、symN小波、coifN小波、biorN小波中的至少一种，N为分解的层数，N≥2。4.根据权利要求3所述的时序数据集的预处理方法，其特征在于，dbN小波的函数公式为：其中：a＞0，为伸缩因子；v为平移因子；R为实数积分域；f(t)为分析信号函数；Ψa,v(t)称为基本小波。5.根据权利要求3所述的时序数据集的预处理方法，其特征在于，所述高频数组至少有3组。6.根据权利要求1或5所述的时序数据集的预处理方法...

【专利技术属性】
技术研发人员：王晓玲，王若楠，李松敏，佟大威，乔天诚，郑雅致，陈一天，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人