当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于气象因子的CA-NARX水质预测方法技术

技术编号:24459231 阅读:16 留言:0更新日期:2020-06-10 16:29
本发明专利技术公开了一种基于气象因子的CA‑NARX水质预测方法,属于智能水质预测数据应用技术领域;包括以下步骤:①进行数据标准化,②创建样本矩阵,③根据分位数确定初始聚类中心,④根据欧氏距离进行初始聚类,⑤将每类的均值作为新的聚类中心,⑥根据各样本距聚类中心的马氏距离按批聚类,⑦聚类数筛选,⑧选取最好的聚类数,⑨m折交叉验证选择训练样本,⑩前向型NARX神经网络分类预测。本发明专利技术主要解决中小型水库水质预测成本费用高、预测准确度低问题,同时处理传统聚类算法对数据的非均质、各类方差不同的不适用性问题,并对NARX神经网络训练准确度进行一定程度的提升。

A ca-narx water quality prediction method based on meteorological factors

【技术实现步骤摘要】
一种基于气象因子的CA-NARX水质预测方法
本专利技术涉及智能水质预测数据应用
,尤其是一种基于气象因子的CA-NARX水质预测方法,应用于水源地水质预测及管理。
技术介绍
水源地的水质情况与人民生活息息相关,运用科学的方法对水质指标进行预测是一种有效的水资源管理和保护方法。总磷、总氮含量是水体富营养化状态的重要评价指标,也是影响水体环境的重要因素。对水体中总磷、总氮含量的准确快速预测可为水环境的评估与预警提供理论支撑,同时也为相关部门提供决策依据,有助于水环境监控与管理工作的进行,保证居民饮水的安全性。目前,世界上水质预测方面主要有三大方向:从大量的水质历史数据挖掘信息进而预测水质、建立先进准确的水动力数学模型预测水质、通过气象因子数据预测水质。在运用大量历史数据进行水质预测研究方面,AliNajahAhmed等提出了一种以PH值等水质参数历史数据为基础的神经模糊推理系统(WDT-ANFIS),并结合了小波增强去噪进行改进以减少数据误差对预测结果造成的影响;在建立先进准确的水动力数学模型方面,蒋晨韵等构建了三维水动力-水质模型研究气温、水温、风力对蓝藻水华的影响;唐旺等利用三维耦合模型研究了库区水温和水质的相互影响关系。但是对于像中国石河水库这种中小型水库来说,上述从大量的水质历史数据挖掘信息进而预测水质和建立先进准确的水动力数学模型预测水质的方法并不适用。首先,获取大量的历史数据并不容易。我国的中小型水库多是每月采样检测两次,周期长、反应慢,难以实现实时监测从而获取大量数据。其次,引进先进的模型及软件对于中小型水库而言,花费较高,有大材小用的弊端。水体中的氮、磷营养盐污染一般来源于点源和非点源污染,点源污染排放集中、位置固定,如工业废水、城市生活废水等,一般容易得到有效控制。非点源污染主要通过农施化肥、土壤侵蚀、地表径流以及大气干湿沉降等方式进入水体,排放方式多样、难以监测和控制,国内外研究较少。
技术实现思路
本专利技术需要解决的技术问题是提供一种基于气象因子的CA-NARX水质预测方法,是对数据的准确聚类并快速准确预测的方法,利用简便易测的气象因子气温、水温、降雨量、相对湿度来研究影响水质重要因素总磷、总氮的相关性,设计优化的聚类方法与前向型NARX神经网络相结合的算法,实现对水质的准确快速预测。为解决上述技术问题,本专利技术所采用的技术方案是:一种基于气象因子的CA-NARX水质预测方法,包括以下步骤:步骤1:将逐日水质数据、气象因子数据分别存入矩阵,并对数据进行Min-Max标准化;步骤2:根据分类数对应分位数选取初始聚类中心;步骤3:根据各样本观测点距初始聚类中心的欧氏距离进行初步聚类;步骤4:根据各样本观测点距聚类中心的马氏距离进行按批迭代聚类,直至前后两次迭代的聚类中心欧式距离之差小于某数值;步骤5:遍历某范围的聚类数,分别计算每类聚类数下的样本平均轮廓系数值,选取与1相差最小的轮廓系数对应的聚类数,得到最佳聚类情况;步骤6:将分类后的气象因子数据和水质数据归一化,并转化为时间序列数据,创建数据集,并初始化输入、输出延时阶数,隐含层个数参数;步骤7:采用交叉验证方法,将样本数据随机的分成m份,每次随机的选择m-3份作为训练集,剩下的1份做测试集,2份做验证集,当这一轮完成后,重新随机选择m-3份来训练数据算法,重复进行一定轮数;步骤8:创建非线性自回归神经网络,确定训练函数、误差函数;步骤9:进行网络训练,计算隐含层、输出层的输出,计算实际输出值与期望输出值的误差;步骤10:进行权值、阈值更新,重复步骤8~步骤9,直至满足训练结果的平均误差小于某数值;步骤11:输入相应影响因子数据,通过网络仿真输出总磷、总氮含量预测值。本专利技术技术方案的进一步改进在于:步骤1中的逐日水质数据包括总磷、总氮含量;气象因子数据包括气温、水温、降雨量、相对湿度。本专利技术技术方案的进一步改进在于:步骤1中具体的Min-Max标准化方法为:将n日的水质数据总磷、总氮含量数据存入矩阵Y=[Y1,Y2],其中Yi=[Y1i,Y2i…Yni]′i=1,2,将四个气象因子气温、水温、降雨量、相对湿度数据存入矩阵X=[X1,X2,X3,X4],其中Xi=[X1i,X2i…Xni]′i=1,2,3,4,分别对两类数据进行Min-Max标准化,具体标准化公式为:本专利技术技术方案的进一步改进在于:步骤2中选取初始聚类中心的具体方法为:设聚类数为k,设将样本分为k类,则第h个聚类中心为各变量的分位数,h=1,2…k,以k=3为例,则三个初始聚类中心分别为本专利技术技术方案的进一步改进在于:步骤3中,进行初步聚类的具体方法为:根据n个观测值距k个聚类中心的欧氏距离进行第一次聚类,设y1,y2,…yn为n个样本,即yi=[Yi1,Yi2,…Yim]′,则第j个样本与第h个聚类中心之间的欧氏距离为:则分类准则为:即将观测点归到距聚类中心欧式距离最小的类别。本专利技术技术方案的进一步改进在于:步骤4中具体的方法包括如下步骤:Ⅰ:设第h类的观测个数为nh,计算每类数据的类均值类内方差∑h,将每类别样本均值作为新的聚类中心,重新对样本进行聚类,计算每个观测与聚类中心之间的马氏距离并将该观测点归于与其的马氏距离最小的聚类中心所属类别,即分类准则仍为:Ⅱ:计算每次聚类前后新旧聚类中心之间的欧氏距离D,并以此作为目标值,如果新聚类中心下的目标值小于之前聚类中心下的目标值,则更新聚类中心,重复步骤Ⅰ直至聚类中心不再更新。本专利技术技术方案的进一步改进在于:步骤5中具体的方法包括如下步骤:Ⅲ:计算当前聚类个数的平均轮廓系数:设样本i属于第h0类,则其到同类其他样本的平均距离a(i)计算公式为:样本i的簇间不相似度b(i)的计算公式为:且h≠h0(7)b(i)=min{bi1,bi2,bi3…bik}(8)样本的轮廓系数均值a(i)为第i个样本值距同类别其他样本值的平均距离,即簇内不相似度,b(i)为第i个样本值距其它类他样本值的平均距离的最小值,即簇间不相似度,聚类目的为同类间距离尽可能小,不同类之间的差别尽可能大,故s(i)的值越接近于1,聚类效果越好,从而的值也应越接近于1聚类效果越好;Ⅳ:依次确定聚类个数为3、4、5、6,重复Ⅰ至Ⅲ步,依次计算出不同聚类中心个数下的样本平均轮廓系数值,选择使样本平均轮廓系数值最接近1的聚类个数,并将其作为最终的聚类个数。本专利技术技术方案的进一步改进在于:步骤6中具体的方法包括如下步骤:Ⅴ:构造时间序列数据:设输入因子x(k)表示为:x(k)=x(μ1(k),μ2(k),μ3(k),μ4(k),μ5(k))(10)其中μ1(k),μ2(k),μ3(k),μ4(k),μ5(k)分别表示第k天气温、水温、降雨量、湿度的情况,并以本文档来自技高网
...

【技术保护点】
1.一种基于气象因子的CA-NARX水质预测方法,其特征在于,包括以下步骤:/n步骤1:将逐日水质数据、气象因子数据分别存入矩阵,并对数据进行Min-Max标准化;/n步骤2:根据分类数对应分位数选取初始聚类中心;/n步骤3:根据各样本观测点距初始聚类中心的欧氏距离进行初步聚类;/n步骤4:根据各样本观测点距聚类中心的马氏距离进行按批迭代聚类,直至前后两次迭代的聚类中心欧式距离之差小于某数值;/n步骤5:遍历某范围的聚类数,分别计算每类聚类数下的样本平均轮廓系数值,选取与1相差最小的轮廓系数对应的聚类数,得到最佳聚类情况;/n步骤6:将分类后的气象因子数据和水质数据归一化,并转化为时间序列数据,创建数据集,并初始化输入、输出延时阶数,隐含层个数参数;/n步骤7:采用交叉验证方法,将样本数据随机的分成m份,每次随机的选择m-3份作为训练集,剩下的1份做测试集,2份做验证集,当这一轮完成后,重新随机选择m-3份来训练数据算法,重复进行一定轮数;/n步骤8:创建非线性自回归神经网络,确定训练函数、误差函数;/n步骤9:进行网络训练,计算隐含层、输出层的输出,计算实际输出值与期望输出值的误差;/n步骤10:进行权值、阈值更新,重复步骤8~步骤9,直至满足训练结果的平均误差小于某数值;/n步骤11:输入相应影响因子数据,通过网络仿真输出总磷、总氮含量预测值。/n...

【技术特征摘要】
1.一种基于气象因子的CA-NARX水质预测方法,其特征在于,包括以下步骤:
步骤1:将逐日水质数据、气象因子数据分别存入矩阵,并对数据进行Min-Max标准化;
步骤2:根据分类数对应分位数选取初始聚类中心;
步骤3:根据各样本观测点距初始聚类中心的欧氏距离进行初步聚类;
步骤4:根据各样本观测点距聚类中心的马氏距离进行按批迭代聚类,直至前后两次迭代的聚类中心欧式距离之差小于某数值;
步骤5:遍历某范围的聚类数,分别计算每类聚类数下的样本平均轮廓系数值,选取与1相差最小的轮廓系数对应的聚类数,得到最佳聚类情况;
步骤6:将分类后的气象因子数据和水质数据归一化,并转化为时间序列数据,创建数据集,并初始化输入、输出延时阶数,隐含层个数参数;
步骤7:采用交叉验证方法,将样本数据随机的分成m份,每次随机的选择m-3份作为训练集,剩下的1份做测试集,2份做验证集,当这一轮完成后,重新随机选择m-3份来训练数据算法,重复进行一定轮数;
步骤8:创建非线性自回归神经网络,确定训练函数、误差函数;
步骤9:进行网络训练,计算隐含层、输出层的输出,计算实际输出值与期望输出值的误差;
步骤10:进行权值、阈值更新,重复步骤8~步骤9,直至满足训练结果的平均误差小于某数值;
步骤11:输入相应影响因子数据,通过网络仿真输出总磷、总氮含量预测值。


2.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤1中的逐日水质数据包括总磷、总氮含量;气象因子数据包括气温、水温、降雨量、相对湿度。


3.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤1中具体的Min-Max标准化方法为:将n日的水质数据总磷、总氮含量数据存入矩阵Y=[Y1,Y2],其中Yi=[Y1i,Y2i...Yni]′i=1,2,将四个气象因子气温、水温、降雨量、相对湿度数据存入矩阵X=[X1,X2,X3,X4],其中Xi=[X1i,X2i...Xni]′i=1,2,3,4,分别对两类数据进行Min-Max标准化,具体标准化公式为:








4.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤2中选取初始聚类中心的具体方法为:设聚类数为k,设将样本分为k类,则第h个聚类中心为各变量的分位数,h=1,2...k,以k=3为例,则三个初始聚类中心分别为


5.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤3中进行初步聚类的具体方法为:根据n个观测值距k个聚类中心的欧氏距离进行第一次聚类,设y1,y2,...yn为n个样本,即yi=[Y1i,Yi2,...Yim]′,则第j个样本与第h个聚类中心之间的欧氏距离为:



则分类准则为:



即将观测点归到距聚类中心欧式距离最小的类别。


6.根据权利要求1所述的一种基于气象因子的CA-NARX水质预测方法,其特征在于:步骤4中具体的方法包括如下步骤:
I:设第h类的观测个数为nh,计算每类数据的类均值类内方差∑h,将每类别样本均值...

【专利技术属性】
技术研发人员:王晶耿燕章胤金玉玺
申请(专利权)人:燕山大学
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1