一种水污染时序数据连续缺失值填补方法技术

技术编号：36897452 阅读：44 留言：0更新日期：2023-03-18 09:18

本发明专利技术涉及一种水污染时序数据连续缺失值填补方法。该方法首先基于DTW算法计算存在缺失值的序列与其他完整序列之间的相似性，然后使用最相似完整序列训练基模型BLSA，BLSA模型融合了Bi

全部详细技术资料下载

【技术实现步骤摘要】
一种水污染时序数据连续缺失值填补方法

[0001]本专利技术属于深度学习和迁移学习
，具体地说是一种水污染时序数据连续缺失值填补方法。

技术介绍

[0002]目前世界各国对于水污染问题越来越重视，如何更好的保护水环境，保障用水安全，成为亟待解决的重要问题。对于水污染相关数据进行建模分析，在任何水环境系统中都具有重要意义，但是由于设备故障、日常维护、传感器设置变化、采样不足等原因，水污染数据中通常包含大量缺失数据，严重影响了相关研究的发展。因此为了确保在对水污染数据进行建模分析中能够达到更理想的效果，有必要对数据中存在的缺失值进行处理，实践证明，采用合适的方法对缺失值进行填补是更有效的缺失值处理方式。
[0003]目前常用的缺失值填补方法主要有基于统计学的填补方法和基于算法的填补方法。基于统计学的填补方法主要可以分为均值填补，中值填补或者常用值填补，这类方法简单易行，但是往往建模效果不理性，因为此类方法忽略了数据的时序和空间信息。传统机器学习方法在缺失值填补中有着独特的优势，易于建模和训练，并且能够取得不错的效果...

【技术保护点】

【技术特征摘要】
1.一种水污染时序数据连续缺失值填补方法，其特征在于，包括以下步骤：1)从河流不同自动监测站分别获取河流监测数据，获取的数据中包含连续缺失值的序列称为目标序列，完整序列称为基序列；2)对河流监测数据进行重采样，并进行归一化处理；3)采用DTW算法计算目标序列与同一时间段其他基序列之间的相似性，得到与目标序列最相似的基序列，所述最相似的基序列为经过DTW算法计算得到的数值最小的基序列；4)将步骤3)中得到的基序列划分成训练集和测试集，并将训练集和测试集中的数据以滑动窗口的方式构造成输入向量；5)构建BLSA模型，并使用输入向量对其进行训练；6)将训练好的BLSA模型进行模型迁移：冻结BLSA模型中的Bi
‑
LSTM层，然后采用目标序列对Self
‑
attention层进行二次训练，以对BLSA模型参数进行调整，得到迁移后的模型BLSA
tr
；7)基于BLSA
tr
模型对目标序列中存在的连续缺失值进行迭代估计并填补。2.根据权利要求1所述的一种水污染时序数据连续缺失值填补方法，其特征在于，所述河流监测数据，包括河流污染物浓度、河流水流量以及水温数据。3.根据权利要求1所述的一种水污染时序数据连续缺失值填补方法，其特征在于，所述重采样具体为：把每天不同时刻的数据按天取平均值。4.根据权利要求2所述的一种水污染时序数据连续缺失值填补方法，其特征在于，所述河流污染物包括：溶解氧、氨氮、化学需氧量、氟化物、总磷、总氮中的一种。5.根据权利要求1所述的一种水污染时序数据连续缺失值填补方法，其特征在于，所述BLSA模型包括：顺序连接的输入层、Bi
‑
LSTM层、Self
‑
attention层、全连接层以及输出层，BLSA模型的训练过程为：把输入向量通过输入层输入到Bi
‑
LSTM层进行训练得到特征向量；Self
‑
attention层中，将特征向量采用Self
‑
attention机制进行训练，得到不同特征向量对应的概率，不断更新迭代权重参数矩阵，输出加权后的特征向量；将加权后的特征向量输入到全连接层进行计算，得到预测的缺失值，并通过输出层输出。6.根据权利要求5所述的一种水污染时序数据连续缺失值填补方法，其特征在于，所述Bi
‑
LSTM层具体操作为：遗忘门接受一个长期记忆C
t
‑1，并决定要保留和遗忘C
t
‑1的哪一部分，其中C
t
‑1是上一个单元模块传递过来的输出，遗忘门的输出f
t
的计算方法为：f
t
＝σ(W
f
h
t
‑1+U
f
x
t
+b
f
)其中，f
t
表示遗忘门在t时刻的输出，σ表示sigmoid激活函数，W，U分别表示权值矩阵，下角标f表示遗忘门，b为偏置矩阵，下角标f表示遗忘门，h
t
‑1为上一层的隐藏状态，x
t
为当前时刻的输入数据；输入门由两部分组成，第一部分使用sigmoid激活函数，输出为i
t
，第二部分使用tanh激活函数，输出为α
t
，输入门的计算表达式为：i
t
＝σ(W
i
h
...

【专利技术属性】
技术研发人员：王宁，周晓磊，胡衍坤，郭思晓，康利荥，武暕，祁柏林，金继鑫，宋春梅，
申请(专利权)人：中国科学院沈阳计算技术研究所有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人