【技术实现步骤摘要】
一种地下水位监测数据缺失的修复方法
[0001]本专利技术属于地下水位监测
,尤其涉及一种地下水位监测数据缺失的修复方法。
技术介绍
[0002]由于地下水位数据的复杂性,大部分地区地下水监测覆盖不足,或者观测年限较短,目前大多地区的地下水位数据都存在着长时间序列数据的缺失。目前地下水位时间序列数据多采用现有的时间序列数据插值方法,包括:
①
基于统计学的填充方法,采用时间序列数据中的中值、均值、众数等进行插值;
②
线性插值方法,将已知的地下水位数据拟合成一条函数,然后对缺失值进行插值;
③
前后加权均值方法,按照前后时间距离的远近进行加权取均值等等。考虑到地下水位数据具有较强的时间变化特征,季节性降水增多和人工灌溉等多种因素均会对地下水变化产生影响,目前上述的基于统计学原理的时间序列插值方法由于忽略时间序列中的时间信息,同时地下水位数据中连续缺失数据较多,因此基于统计学原理的修复方法效果不太理想,无法直接应用到地下水位时间序列数据修复中。
[0003]当前最新的时空数据插值方法,即贝叶斯时间因子分解时间序列插值方法,以贝叶斯时间分解框架为基础,相较于其他方法,使用该方法对长时间序列地下水数据进行插补能够取得较好的效果。但是这种方法由于在图模型建模中采用高斯分布,因此在插值过程中不可避免产生异常值的影响。因此如何消除异常值的影响从而提高地下水位数据缺失修复的准确率和适用性是目前亟需解决的技术问题。
技术实现思路
[0004]本专利技术的目 ...
【技术保护点】
【技术特征摘要】
1.一种地下水位监测数据缺失的修复方法,其特征在于,所述方法包括以下步骤:步骤1、获取并整理地下水位监测数据形成地下水时空数据集:获取地下水位监测点历年的水位监测数据,将水位监测数据整理成具有时间标签且记录时间间隔相同的时间序列数据,对于缺失值进行标记,形成地下水时空数据集;步骤2、利用BTF模型对含有缺失值的时间序列数据进行插值:以地下水时空数据集为基础数据,选取数据集中含有缺失值的时间序列数据作为目标序列,选取数据集中完整的时间序列数据作为训练集,利用训练集对BTF模型进行训练,结合Gibbs采样算法调整模型参数,然后利用训练完成后的模型对目标序列进行插值,直至所有含有缺失值的时间序列数据插值完成;步骤3、利用孤立森林模型对插值后的时间序列数据进行异常值检测:选取地下水时空数据集中完整的时间序列数据,将选取的时间序列数据划分为训练数据与测试数据,使用训练数据对孤立森林模型进行训练,再通过测试数据对模型进行验证,调整模型参数,然后利用训练完成的孤立森林模型对插值后的时间序列数据进行异常值检测,把插值结果中的异常值再次标记为缺失值且剔除;步骤4、对时间序列数据进行再次插值直至数据修复完整:使用KNN算法模型对经过异常值检测的时间序列数据再次进行插值,修复时间序列数据中的缺失值,直至所有时间序列数据中的缺失值补全,最后得到完整的地下水位监测数据。2.根据权利要求1所述的一种地下水位监测数据缺失的修复方法,其特征在于,步骤2中所述利用训练集对BTF模型进行训练的具体过程为:将训练集中的时间序列数据随机缺失10%、20%、30%和40%以模拟现实地下水位时间序列数据的真实情况,然后利用BTF模型对时间序列进行插值,对于插值结果通过引入平均绝对百分比误差MAPE和均方根误差RMSE两个评价指标来比较不同参数BTF模型的插值效果和效率,以确定最优的模型参数;其中百分比误差MAPE的计算公式为:均方根误差RMSE的计算公式为:式中,a
i
为原始地下水位时间序列数据第i个值;b
i
为对应的插值结果。3.根据权利要求1所述的一种地下水位监测数据缺失的修复方法,其特征在于,步骤3中所述将选取的时间序列数据划分为训练数据与测试数据具体为:将选取的时间序列数据的70%划为训练数据、30%划为测试数据。4.根据权利要求1所述的一种地下水位监测数据缺失的修复方法,其特征在于,步骤3中所述利用训练完成的孤立森林模型对插值后的时间序列数据进行异常值检测的具体过程为:
步骤31、从训练集中随机选...
【专利技术属性】
技术研发人员:孙永华,张王宽,成星路,曹许悦,王衍昭,
申请(专利权)人:首都师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。