基于迁移学习的连续大规模水质缺失数据填补方法技术

技术编号：28373528 阅读：41 留言：0更新日期：2021-05-08 00:00

本发明专利技术涉及一种基于迁移学习的连续大规模水质缺失数据填补方法。本发明专利技术首先进行数据预处理，并利用滑动窗口算法构造出训练和测试样本。然后进行数据填补：具体是将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集；每次迭代中，分别构造一个新的填补数据的弱学习器；在新混合的训练样本上计算平均预测填补误差；分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数；更新下一时刻源域和目标域训练样本新的权重；将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值。本发明专利技术在处理大规模连续缺失数据问题中有近15%‑25%填补准确率的提升。

全部详细技术资料下载

【技术实现步骤摘要】
基于迁移学习的连续大规模水质缺失数据填补方法
本专利技术涉及一种水质缺失数据填补方法，尤其涉及一种基于迁移学习的大规模连续水质缺失数据填补方法。
技术介绍
随着工业化和城市化的快速发展，水资源保护和水污染治理已然成为全球最热门也是最令人担忧的热点话题。为了控制水污染并减弱其对水生态系统和人类社会的不利影响，大量研究者进行了许多工作(包括水质的时空预测，水质污染物影响因子评估和数据驱动的水质模型等)以提高小流域中水质监测水平。在进行这些研究时，有效和高质量的水质数据集是产生合理且可靠研究结果的重要前提条件。但是，大多数水质数据如氨氮、PH、溶解氧等都是由不同水质监测站点的前端生物重金属传感器自动采样所得。由于设备故障、定期维护、样本采样不足、传感器参数设置的人为更改等不可抗力因素导致原始水质数据包含大量的缺失值。这些水质缺失数据将严重增加后续水质研究发现的局限性和难度。因此，随着越来越多的水质研究转向基于数据的分析，缺少的数据已成为该领域亟待解决的问题。尽管大多数现有的研究已经探索了一些经典的统计方法(均值法、中位数法等)或新兴的机器/深度学习方法(最大期望，模糊聚类、支持向量回归和极限学习机等)来填充丢失的数据。但是很难解决大规模连续丢失数据的问题(传统方法只能应用在丢失率30％以下的情况，他们没有考虑50％-90％的丢失率情况)，这是因为随着丢失率的增加，无法在丢失数据周围提供相关的先验统计信息或足够的训练样本以获得填补数据的准确性。因此，就大规模连续丢失数据问题而言，这些方法并不适用。随着...

【技术保护点】
1.基于迁移学习的连续大规模水质缺失数据填补方法，其特征在于该方法包括以下步骤：/n数据预处理：/n将从某个水质监测站传感器所收集的不完整数据序列进行清洗、标准归一化并将其定义为实验数据；/n利用时间序列相似查询的方法找出最相似于不完整数据序列的监测站点的数据并将其定为参考数据；/n使用滑动窗口算法构造出训练和测试样本；/n数据填补：/n设含有少量训练样本且数据大规模连续缺的水质监测站点为目标域，而具有完整训练样本的水质监测站点为源域；/n将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集；/n初始化源域和目标域的训练样本的权重分布、弱学习器权重系数：最大迭代次数以及定义混合训练样本的权重分布；/n开始进行迭代运算：/n每次迭代中，分别构造一个新的填补数据的弱学习器；/n在新混合的训练样本上计算平均预测填补误差；/n分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数；/n根据t时刻的权重更新t+1时刻源域和目标域训练样本新的权重；完成一次弱学习器训练，重新开始迭代过程，直至达到最大的迭代次数时跳至输出；/n输出：将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值。/n...

【技术特征摘要】
1.基于迁移学习的连续大规模水质缺失数据填补方法，其特征在于该方法包括以下步骤：
数据预处理：
将从某个水质监测站传感器所收集的不完整数据序列进行清洗、标准归一化并将其定义为实验数据；
利用时间序列相似查询的方法找出最相似于不完整数据序列的监测站点的数据并将其定为参考数据；
使用滑动窗口算法构造出训练和测试样本；
数据填补：
设含有少量训练样本且数据大规模连续缺的水质监测站点为目标域，而具有完整训练样本的水质监测站点为源域；
将目标域的训练样本和源域的训练样本融合成为新的混合训练样本集；
初始化源域和目标域的训练样本的权重分布、弱学习器权重系数：最大迭代次数以及定义混合训练样本的权重分布；
开始进行迭代运算：
每次迭代中，分别构造一个新的填补数据的弱学习器；
在新混合的训练样本上计算平均预测填补误差；
分别计算源域的训练样本和目标域的训练样本的权重迭代更新系数；
根据t时刻的权重更新t+1时刻源域和目标域训练样本新的权重；完成一次弱学习器训练，重新开始迭代过程，直至达到最大的迭代次数时跳至输出；
输出：将所有弱学习器的输出值进行加权平均即可得到一个强学习器的最终预测填补数值。

2.根据权利要求1所述的基于迁移学习的连续大规模水质缺失数据填补方法，其特征在于：所述的时间序...

【专利技术属性】
技术研发人员：蒋鹏，陈锃，许欢，刘俊，林广，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人