Air parameter data pretreatment of the present invention relates to changes over time, as with a simple but effective way of indoor air changes over time in data preprocessing, including fill short length data, abnormal data jump value at the same time to ensure the removal of change, change the data change substantially related to not be identified as outliers with human behavior, and finally the zero offset correction. The technical scheme of the invention is that the locally weighted regression of indoor air data preprocessing method based on the first to fill the vacancy of short length data, to ensure that the data does not exist vacant 0 values, and then remove the abnormal data jump value, to ensure no longer exists needle data jump point, then correction of zero offset, to handle the data into calibration curve. The invention is mainly applied to the pretreatment of the air parameter data over time.
【技术实现步骤摘要】
基于局部加权回归的室内空气数据预处理方法
本算法能对随时间变化的空气参数(温度,湿度,甲醛浓度,PM2.5浓度,二氧化碳浓度等)中的数据空缺进行填补,并可以对数据中的异常跳变值进行去除,以及可以对数据进行零点偏移的修正。属于特定数据预处理的领域。具体讲,涉及基于局部加权回归的室内空气数据预处理方法。
技术介绍
目前对数据进行预处理的技术方法难易皆具,然而简单的预处理方法难以做到有效,而有效的预处理方法往往比较复杂[1]。本技术预处理的数据对象是室内空气数据:第一,这种数据具有整体上随时间缓慢变动但是每时每刻都有着不同程度的随机噪声的特点(如图1);第二,由于硬件系统具有数据空缺报警功能,故可以确保数据空缺的时长很短;第三,已经具有了修正零点偏移的标定曲线。所以相比于对数据空缺进行填补和零点偏移,本技术的核心是对数据中的跳变异常值进行去除,并且能够保证与人行为变化相关的数据大幅度变动不被识别成异常值被剔除。在对数据异常值进行剔除的方法中,最常见的是对数据直接使用C4.5决策树进行分类判定[2],但是该算法易将因为人行为变化导致的数据大幅度变动值和异常跳变值一并被分类 ...
【技术保护点】
一种基于局部加权回归的室内空气数据预处理方法,其特征是,首先进行短时长数据空缺的填补,要确保整个数据不存在空缺的0值,然后再进行数据异常跳变值的去除,在保证不再存在针状的数据跳变点时,再进行零点偏移的矫正,即将处理好的数据代入到标定曲线中。
【技术特征摘要】
1.一种基于局部加权回归的室内空气数据预处理方法,其特征是,首先进行短时长数据空缺的填补,要确保整个数据不存在空缺的0值,然后再进行数据异常跳变值的去除,在保证不再存在针状的数据跳变点时,再进行零点偏移的矫正,即将处理好的数据代入到标定曲线中。2.如权利要求1所述的基于局部加权回归的室内空气数据预处理方法,其特征是,进行数据异常跳变值的去除具体步骤是,使用拟合曲线将有意义的信息拟合出来,并且同时不拟合针状数据跳变和所有的高频噪声,具体选用局部加权回归(LocalWeightRegression)进行有用信息的拟合,再用原数据曲线减去拟合曲线得到噪声曲线,解决有用信息对跳变值去除的干扰。3.如权利要求2所述的基于局部加权回归的室内空气数据预处理方法,其特征是,局部加权回归原理具体步骤是,先用一定数目的横轴上的参考点将整个数据等分开来,并以这些点为中心分别求算线局部性回归,在使用最小二乘法求解回归参数时,离中心点越远的数据点所占的权数越小,最后得到这些点的回归数值,然后用插值将这些回归数值点相连,这里使用线性插值即可;进一步地,对每一个训练数据点,都要使得:∑iw(i)(y(i)-θTx(i))2(1)最小;其中i是训练数据的个数角标;x指时间轴的时间值;y是目标值;θ是回归方程的系数向量,使用二次回归,故θ是个三维向量;w是高斯权数,表示成:其中没有上角标的x指的是选定的横轴上的参考点,τ是带宽(bandwidth),τ越大,局部回归的强...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。