基于聚类和LSTM的太湖水质预测方法技术

技术编号:37457582 阅读:12 留言:0更新日期:2023-05-06 09:29
本发明专利技术涉及基于聚类和LSTM的太湖水质预测方法,采用最大最小标准化方法将水质数据进行归一化处理;采用皮尔森系数反映DO与水温、PH值、电导率、浊度、高猛酸盐、氨氮、总磷、总氮环境因素的程度,选出相关性最大的环境因素体现DO特征;采用k

【技术实现步骤摘要】
基于聚类和LSTM的太湖水质预测方法


[0001]本专利技术涉及一种基于聚类和LSTM的太湖水质预测方法。

技术介绍

[0002]目前,太湖流域地跨江苏省、浙江省和上海市,不仅是推动长三角地区高质量一体化发展的关键,更是周边城市居民赖以生存的水源基础。随着我国长三角地区工业化、城市化进程的加快,大量工业污染导致太湖流域水环境污染事件频发,实施好太湖流域水环境综合治理显得极为重要。由于太湖流域显著的跨区域性,其水环境治理存在水质监测站点杂、地点分散,难以综合评价等问题,从而影响太湖流域水环境治理方案的制订与执行。同时由于周边城市多方协作难,实现对太湖整体水质的精准预测成了治理太湖任务的重中之重。
[0003]在机器学习技术飞速发展的当下,已有大量研究将机器学习模型与水质预测结合,旨在从分析水质数据出发,结合机器学习模型来实现对水质的精准预测,从而解决水质数据庞大难以记录、分析,水质预测精度低、效率低下等问题。针对机器学习模型在水质预测领域的应用,ANN模型、反向传播神经网络(BPNN)模型、径向基函数神经网络(RBFNN)模型、循环神经网络(RNN)模型、广义回归神经网络(GRNN)模型、支持向量机(SVM)模型、极限学习机(ELM)模型等多种机器学习模型已被证实能够在不同方面有效提高水质预测能力。同时,使用混合机器学习模型、使用优化算法改进模型(如GA,PSO,BA等)或使用深度神经网络变体(LSTM,RNN,CNN等)也被证实能够进一步有效提高基础模型的准确性和性能,这也为之后优化模型提供了更好的方向。目前针对太湖流域的水质预测问题,更适合时间序列预测的长短期记忆(LSTM)神经网络模型被广泛应用,也已被证实在处理时间序列水质预测问题上有着更好的性能。
[0004]考虑到庞大的水质指标数据,通常会对其进行相关预处理操作来降低对后续数据处理的难度。例如数据聚类,既能够快捷、有效地排除异常数据,又能够在相似性大的簇中找到对应关系。而当前最典型、使用最普遍的聚类算法便是k均值(k

means)聚类算法,也已经被广泛应用于水质预测领域。由于k

means聚类算法的初始聚类中心的确定对算法执行速度有较大的影响,在k

means聚类算法的优化上可以从优化初始聚类中心的选择入手。针对k

means初始聚类中心的选择问题,有研究利用粒子群优化(PSO)算法强大的全局搜索能力来对k

means初始聚类中心的选择进行优化,证明了PSO算法优化k

means聚类算法的有效性,且在很大程度上改善了k

means容易陷入局部最优解的问题。在PSO算法优化k

means聚类算法的基础上,发现改进的PSO算法能够进一步优化k

means聚类算法。一种改进的PSO算法—随机发生的分布式延迟粒子群优化(RODDPSO)算法通过将随机发生的分布式时间延迟引入速度更新模型,从而减少局部最优的可能性并扩大搜索空间,优化k

means聚类算法的效果更佳。
[0005]目前基于改进PSO的聚类算法、k

means聚类算法以及LSTM神经网络模型已经广泛应用于各个领域,也已经被证明可以有效提高在数据分析中的数据精度,降低分析大量杂
乱数据的难度。但是这些方法用于太湖水质预测还有局限性,尤其是考虑需要作溶解氧(DO)指标数据分析及预测情况下的太湖水质预测。DO作为“水质五参”之一,常常是用来评价水质的重要指标,也已有许多研究人员从研究DO数据入手来对水质进行精准预测。
[0006]太湖流域因其独特的跨区域性,难以综合治理整体流域水环境,实现对太湖整体水质的精准预测一直以来是治理太湖任务的重中之重。目前的水质预测模型在太湖流域上的应用仍存在精度低、泛化能力弱等局限性。

技术实现思路

[0007]本专利技术的目的是克服现有技术存在的不足,提供一种基于聚类和LSTM的太湖水质预测方法。
[0008]本专利技术的目的通过以下技术方案来实现:
[0009]基于聚类和LSTM的太湖水质预测方法,特点是:包括以下步骤:
[0010]步骤1:采用最大最小标准化方法将水质数据进行归一化处理;
[0011]步骤2:采用皮尔森系数反映DO与水温、PH值、电导率、浊度、高猛酸盐、氨氮、总磷、总氮环境因素的程度,选出相关性最大的环境因素体现DO特征;
[0012]步骤3:采用k

means聚类算法对DO特征值进行聚类操作,针对k

means易陷入局部最优解问题,采用PSO优化算法—RODDPSO算法对k

means聚类算法初始聚类中心的选择进行优化;引入轮廓系数选择最佳聚类簇数并作为评估聚类性能的指标;
[0013]步骤4:将聚类后数据集作为输入样本建立LSTM太湖水质预测模型。
[0014]进一步地,上述的基于聚类和LSTM的太湖水质预测方法,其中,步骤1中,考虑到各因素量纲和数量级的差异性,对数据预处理,将所有水质数据进行归一化处理,归一化处理采用最大最小标准化方法,公式如下:
[0015][0016]式(1)中,x是样本数据原始值,x
min
是样本数据的最小值,x
max
是样本数据的最大值;
[0017]通过归一化将原始数据通过线性化的方法转换到[0,1]的范围,将所有数据映射到同一尺度,便于后续数据的处理以及加快模型收敛。
[0018]进一步地,上述的基于聚类和LSTM的太湖水质预测方法,其中,步骤2中,采用皮尔森相关系数得到溶解氧变量与各因素变量之间的关系,皮尔森相关系数计算公式如下:
[0019][0020]式(2)中:X、Y分别是两种对应变量值,N是变量取值的个数;皮尔森相关系数,又称皮尔逊积矩相关系数;相关系数用r表示,其值在[

1,1]区间,绝对值越接近于1,两变量之间的相关性越强,反之则越弱。
[0021]进一步地,上述的基于聚类和LSTM的太湖水质预测方法,其中,步骤3中,采用k

means聚类算法对DO特征值数据进行预处理,内容包括排除数据差值较大的异常数据、将所有数据集细分为更有关联性的子数据集;k

means采用欧氏距离计算数据对象间的距离,欧氏距离计算公式如下:
[0022][0023]式(3)中:n是欧氏空间点集的维度指标;x
i
是第一个点的第i维坐标;y
i
是第二个点的第i维坐标;采用数据对象间的距离作为相似性度量的标准,即两个对象的距离越小,相似度越大,反之则越小;
[0024]针对k

means易陷入局部最优解问题,引入的PSO优化算法—RODDPSO算法对k

means聚类算法初始聚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于聚类和LSTM的太湖水质预测方法,其特征在于:包括以下步骤:步骤1:采用最大最小标准化方法将水质数据进行归一化处理;步骤2:采用皮尔森系数反映DO与水温、PH值、电导率、浊度、高猛酸盐、氨氮、总磷、总氮环境因素的程度,选出相关性最大的环境因素体现DO特征;步骤3:采用k

means聚类算法对DO特征值进行聚类操作,针对k

means易陷入局部最优解问题,采用PSO优化算法—RODDPSO算法对k

means聚类算法初始聚类中心的选择进行优化;引入轮廓系数选择最佳聚类簇数并作为评估聚类性能的指标;步骤4:将聚类后数据集作为输入样本建立LSTM太湖水质预测模型。2.根据权利要求1所述的基于聚类和LSTM的太湖水质预测方法,其特征在于:步骤1中,考虑到各因素量纲和数量级的差异性,对数据预处理,将所有水质数据进行归一化处理,归一化处理采用最大最小标准化方法,公式如下:式(1)中,x是样本数据原始值,x
min
是样本数据的最小值,x
max
是样本数据的最大值;通过归一化将原始数据通过线性化的方法转换到[0,1]的范围,将所有数据映射到同一尺度,便于后续数据的处理以及加快模型收敛。3.根据权利要求1所述的基于聚类和LSTM的太湖水质预测方法,其特征在于:步骤2中,采用皮尔森相关系数得到溶解氧变量与各因素变量之间的关系,皮尔森相关系数计算公式如下:式(2)中:X、Y分别是两种对应变量值,N是变量取值的个数;皮尔森相关系数,又称皮尔逊积矩相关系数;相关系数用r表示,其值在[

1,1]区间,绝对值越接近于1,两变量之间的相关性越强,反之则越弱。4.根据权利要求1所述的基于聚类和LSTM的太湖水质预测方法,其特征在于:步骤3中,采用k

means聚类算法对DO特征值数据进行预处理,内容包括排除数据差值较大的异常数据、将所有数据集细分为更有关联性的子数据集;k

means采用欧氏距离计算数据对象间的距离,欧氏距离计算公式如下:式(3)中:n是欧氏空间点集的维度指标;x
i
是第一个点的第i维坐标;y
i
是第二个点的第i维坐标;采用数据对象间的距离作为相似性度量的标准,即两个对象的距离越小,相似度越大,反之则越小;针对k

means易陷入局部最优解问题,引入PSO优化算法—RODDPSO算法对k

means聚类算法初始聚类中心的选择进行优化;RODDPSO算法在PSO算法的基础上沿用线性减小惯性权
重w的PSO算法PSO

LDIW,线性减小惯性权重w计算公式如下:式(4)中:w
max
是惯性权重最大值;w
min
是惯性权重最小值;iter是当前迭代次数;maxiter是最大迭代次数;同时沿用具有时变加速度系数的PSO算法PSO

TVAC,时变型加速度系数c1、c2计算公式如下:如下:式(5)、式(6)中:c
1i
和c
2i
分别是认知和社会加速度系数的初始值,c
1f
和c
2f
分别是认知和社会加速度系数的最终值,c
1i
=2.5、c
1f
=0.5、c
2i
=0.5、c
2f
=2.5;RODDPSO算法将随机发生的分布时间延迟引入速度更新模型,根据进化状态随机选择历史个人最佳粒子和全局最佳粒子;RODDPSO算法公式如下:x
i
(k+1)=x
i
(k)+v
i
(k+1)
ꢀꢀꢀꢀ
(7)式(7)中,v
i
是粒子的速度;k是迭代次数;w是公式(4)定义的惯性权重;c1和c2分别...

【专利技术属性】
技术研发人员:李泽胡悦
申请(专利权)人:苏州科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1