基于迁移学习的连续大规模水质缺失数据填补方法技术

技术编号:28373528 阅读:41 留言:0更新日期:2021-05-08 00:00
本发明专利技术涉及一种基于迁移学习的连续大规模水质缺失数据填补方法。本发明专利技术首先进行数据预处理,并利用滑动窗口算法构造出训练和测试样本。然后进行数据填补:具体是将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集;每次迭代中,分别构造一个新的填补数据的弱学习器;在新混合的训练样本上计算平均预测填补误差;分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数;更新下一时刻源域和目标域训练样本新的权重;将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值。本发明专利技术在处理大规模连续缺失数据问题中有近15%‑25%填补准确率的提升。

【技术实现步骤摘要】
基于迁移学习的连续大规模水质缺失数据填补方法
本专利技术涉及一种水质缺失数据填补方法,尤其涉及一种基于迁移学习的大规模连续水质缺失数据填补方法。
技术介绍
随着工业化和城市化的快速发展,水资源保护和水污染治理已然成为全球最热门也是最令人担忧的热点话题。为了控制水污染并减弱其对水生态系统和人类社会的不利影响,大量研究者进行了许多工作(包括水质的时空预测,水质污染物影响因子评估和数据驱动的水质模型等)以提高小流域中水质监测水平。在进行这些研究时,有效和高质量的水质数据集是产生合理且可靠研究结果的重要前提条件。但是,大多数水质数据如氨氮、PH、溶解氧等都是由不同水质监测站点的前端生物重金属传感器自动采样所得。由于设备故障、定期维护、样本采样不足、传感器参数设置的人为更改等不可抗力因素导致原始水质数据包含大量的缺失值。这些水质缺失数据将严重增加后续水质研究发现的局限性和难度。因此,随着越来越多的水质研究转向基于数据的分析,缺少的数据已成为该领域亟待解决的问题。尽管大多数现有的研究已经探索了一些经典的统计方法(均值法、中位数法等)或新兴的机器/深度学习方法(最大期望,模糊聚类、支持向量回归和极限学习机等)来填充丢失的数据。但是很难解决大规模连续丢失数据的问题(传统方法只能应用在丢失率30%以下的情况,他们没有考虑50%-90%的丢失率情况),这是因为随着丢失率的增加,无法在丢失数据周围提供相关的先验统计信息或足够的训练样本以获得填补数据的准确性。因此,就大规模连续丢失数据问题而言,这些方法并不适用。随着大数据时代的到来,数据中所蕴含的知识关系到国家和社会的方方面面,数据处理和分析技术的提高需要完整且精确的数据集,而由于周期性缺乏采样和分析或输入错误,现存的数据大都存在噪声或者缺失的情况。因此如何有效的解决数据问题成为至关重要的任务。本专利技术重点关注了水质领域内数据大规模连续缺失情况下填补方法,不同于传统的填补缺失数据的方法,本专利技术提出了一种基于迁移学习和深度学习相融合的算法也就是TrAdaBoost-LSTM,用于填补缺失数据。
技术实现思路
本专利技术针对现有的技术无法填补大规模连续水质缺失数据,提供了一种基于迁移学习的大规模连续水质缺失数据填补方法。本专利技术包括以下步骤:数据预处理:将从某个水质监测站传感器所收集的不完整数据序列进行清洗、标准归一化并将其定义为实验数据;利用时间序列相似查询的方法找出最相似于不完整数据序列的监测站点的数据并将其定为参考数据;使用滑动窗口算法构造出训练和测试样本;数据填补:设含有少量训练样本且数据大规模连续缺的水质监测站点为目标域,而具有完整训练样本的水质监测站点为源域;将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集;初始化源域和目标域的训练样本的权重分布、弱学习器权重系数:最大迭代次数以及定义混合训练样本的权重分布;开始进行迭代运算:每次迭代中,分别构造一个新的填补数据的弱学习器;在新混合的训练样本上计算平均预测填补误差;分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数;根据t时刻的权重更新t+1时刻源域和目标域训练样本新的权重;完成一次弱学习器训练,重新开始迭代过程,直至达到最大的迭代次数时跳至输出;输出:将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值。本专利技术的有益效果:在本专利技术所设计的TrAdaBoost-LSTM算法中,LSTM具有处理时序数据的良好特性以及可以实现数据信息的长期依赖,而迁移学习的思想本质便是以万物互联为基础并实现相似数据域的迁移;本专利技术选择任意一个含有大规模连续缺失数据的水质监测站点为目标域的样本,通过时序序列相似性查询算法:动态时间弯曲(DTW)来选取另一个监测站点完整的数据作为源域样本。实验结果显示对比传统的统计填补、机器学习填补和深度学习填补方法,通过RMSE/MAE/MAPE/R-square等指标,本专利技术的填补方法不仅在处理大规模连续缺失数据问题中有近15%-25%填补准确率的提升,还为其他同类型领域的研究提供的潜在参考思路。附图说明图1是大规模连续缺失数据填补框架;图2是滑动窗口算法;图3是现场水质监测站点的填补结果。具体实施方式由图1所示,本专利技术专利所提出的缺失数据填补方法框架可以分为两个部分:数据预处理和填补算法执行。在数据预处理过程中,首先,将从某个水质监测站传感器所收集的不完整数据序列进行清洗、标准归一化并将其定义为实验数据。其次,利用时间序列相似查询的方法(在专利技术中,使用动态时间弯曲算法(DTW))找出最相似于不完整数据序列的监测站点的数据并将其定为参考数据。最后,使用滑动窗口算法(SlidingWindow)构造出训练和测试样本。在填补算法执行过程中,本专利技术提出了基于实例的迁移学习算法:TrAdaBoost和先进深度学习算法:长短期记忆神经网络(LSTM)相融合的一种新型填补算法TrAdaBoost-LSTM。特此说明:在本专利技术所提填补框架中所涉及的时间序列相似查询方法(如动态规划弯曲(DTW))、基于实例的迁移学习算法:TrAdaBoost、基于深度学习的LSTM算法以及后续的相关分析指标均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对比例误差(MAPE)和模型误差(R-square)计算公式默认为本领域专业技术人员应当理解并熟知的内容,在此不做展开。本专利技术所提出的填补框架中所涉及的关键或具有创新的技术要点如下所述;1、如图2所示,滑动窗口算法(slidingwindow)是应用在时序序列分析中的一种常见方法,其主要思想是关注当前时刻t之前的连续数据即并将其和当前时刻t建立联系。此时称为滑动窗口尺寸。时间序列滑动窗口数学表达式为其中S=[S1,S2,S3…SN]为一条完整的时序序列,称为此时序序列S的一个输入,{St}称为其特征所对应的输出。2、在本专利技术中,定义含有少量训练样本且数据大规模连续缺失(缺失数据比例>50%)的水质监测站点为目标域,而具有完整训练样本的水质监测站点为源域。所涉及TrAdaBoost-LSTM缺失数据填补算法的步骤如下:输入:源域的训练样本:目标域的训练样本:其中和为训练模型的输入,和为训练模型的输出;M为源域训练样本的个数,N为目标域训练样本的个数。步骤1:将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集:{Fk,Lk}(k=1,2,3…,M+N)。步骤2:源域和目标域的训练样本的初始权重分布和初始化弱学习器:LSTM中混合训练样本的权重迭代更新系数:初始最大迭代次数iter以及定义混合训练样本的权重分布:ω为步骤3:对于在每次迭代中,分别构造一个新的填补数据的弱学习器:LSTM;同时,定义此弱学习器的输入是{Fk}(k=1,2,3…,M+N本文档来自技高网
...

【技术保护点】
1.基于迁移学习的连续大规模水质缺失数据填补方法,其特征在于该方法包括以下步骤:/n数据预处理:/n将从某个水质监测站传感器所收集的不完整数据序列进行清洗、标准归一化并将其定义为实验数据;/n利用时间序列相似查询的方法找出最相似于不完整数据序列的监测站点的数据并将其定为参考数据;/n使用滑动窗口算法构造出训练和测试样本;/n数据填补:/n设含有少量训练样本且数据大规模连续缺的水质监测站点为目标域,而具有完整训练样本的水质监测站点为源域;/n将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集;/n初始化源域和目标域的训练样本的权重分布、弱学习器权重系数:最大迭代次数以及定义混合训练样本的权重分布;/n开始进行迭代运算:/n每次迭代中,分别构造一个新的填补数据的弱学习器;/n在新混合的训练样本上计算平均预测填补误差;/n分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数;/n根据t时刻的权重更新t+1时刻源域和目标域训练样本新的权重;完成一次弱学习器训练,重新开始迭代过程,直至达到最大的迭代次数时跳至输出;/n输出:将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值。/n...

【技术特征摘要】
1.基于迁移学习的连续大规模水质缺失数据填补方法,其特征在于该方法包括以下步骤:
数据预处理:
将从某个水质监测站传感器所收集的不完整数据序列进行清洗、标准归一化并将其定义为实验数据;
利用时间序列相似查询的方法找出最相似于不完整数据序列的监测站点的数据并将其定为参考数据;
使用滑动窗口算法构造出训练和测试样本;
数据填补:
设含有少量训练样本且数据大规模连续缺的水质监测站点为目标域,而具有完整训练样本的水质监测站点为源域;
将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集;
初始化源域和目标域的训练样本的权重分布、弱学习器权重系数:最大迭代次数以及定义混合训练样本的权重分布;
开始进行迭代运算:
每次迭代中,分别构造一个新的填补数据的弱学习器;
在新混合的训练样本上计算平均预测填补误差;
分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数;
根据t时刻的权重更新t+1时刻源域和目标域训练样本新的权重;完成一次弱学习器训练,重新开始迭代过程,直至达到最大的迭代次数时跳至输出;
输出:将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值。


2.根据权利要求1所述的基于迁移学习的连续大规模水质缺失数据填补方法,其特征在于:所述的时间序...

【专利技术属性】
技术研发人员:蒋鹏陈锃许欢刘俊林广
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1