基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法技术

技术编号:10145260 阅读:221 留言:0更新日期:2014-06-30 15:24
本发明专利技术公开了一种基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法,属于水质监测技术领域。所述方法包括特征因素多元非平稳时序建模;误差影响因素核主成分分析;针对大样本数据情形,神经网络误差建模;针对小样本数据情形,支持向量机误差建模;最后进行误差补偿,得到预测结果。本发明专利技术解决了现有的水华预测精度不高、难以针对小样本数据预测等问题,对水华形成过程的描述更符合实际,使水华建模预测的结果更加准确。本发明专利技术实现了适于线性系统建模的时序分析方法与适于非线性系统建模的统计学习方法的优势互补,提高了水华预测精度。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种,属于水质监测
。所述方法包括特征因素多元非平稳时序建模;误差影响因素核主成分分析;针对大样本数据情形,神经网络误差建模;针对小样本数据情形,支持向量机误差建模;最后进行误差补偿,得到预测结果。本专利技术解决了现有的水华预测精度不高、难以针对小样本数据预测等问题,对水华形成过程的描述更符合实际,使水华建模预测的结果更加准确。本专利技术实现了适于线性系统建模的时序分析方法与适于非线性系统建模的统计学习方法的优势互补,提高了水华预测精度。【专利说明】
本专利技术涉及一种水华预测方法,属于水质监测
,具体地说,是指在多元非平稳时序分析多种特征因素水华生成的随机过程基础上,对其进行时序建模预测,加以神经网络或支持向量机算法对预测模型进行修正,提高预测精度的水华预测方法。
技术介绍
随着社会经济发展,水在国民经济和社会发展中的地位和作用越来越突出。然而,近些年来我国湖库由于接纳过量的氮、磷等植物性营养物,使藻类和其它水生植物异常繁殖,出现了水体透明度和溶解氧下降,鱼类及其它生物大量死亡的水体富营养化现象,进而导致藻类水华出现。湖库水华是水体富营养化的一种典型表现,其危害性不仅在于严重污染稀缺的淡水资源,甚至严重破坏了生态环境而且由其产生的藻毒素会通过食物链直接威胁人类的健康,已成为地区经济发展的重要制约因素。因此,湖库水华治理工作亟待加强。水华的暴发是由水体的物理、化学和生物过程等多种因素共同作用的结果,但各要素之间关系复杂,由于其存在随机性、不确定性和非线性等特征,目前虽然已有针对水华的多种预测方法,但现有水华预测方法仍存在预测精度不高、难以针对小样本数据预测等问题。由于水华发生的机理很复杂,影响因素较多,因而对其进行预测一直以来都是水华治理和防治工作中的一个难点。近些年来,随着研究的深入,许多基于智能方法建立的模型被应用到水质评价和预测当中,如回归模型、神经网络模型等。时间序列分析是一种动态数据处理的数理统计方法,适于描述和预测多种特征因素水华生成的随机过程。采用多元时序分析方法,对水华形成的特征因素多元时序建模,从而进行水华预测为一种有效途径。时间序列分析预测的特点在于其突出时间因素在预测中的作用,仅依靠过去时刻的数据就可以对未来时刻的数据进行预测,而无需依赖未来时刻外界因素对数据的影响。然而,传统的时间序列模型通常只适于平稳性时序、线性系统的建模分析,但是在实际应用中,时间序列通常具有非平稳以及不规则、混沌等非线性特征,采用传统时序分析方法很难对实际系统建立理想的模型。此外,当未来时刻外界影响因素发生较大变化,时间序列分析预测往往会有较大偏差,因此需要采用适于反映未来时刻外界影响因素对数据相关关系的模型对时序预测误差进行补偿。神经网络与支持向量机是统计学习的代表方法,均适于预测以及非线性系统建模,并且是通过未来时刻外界影响因素与预测对象之间的相关关系而实现对数据的预测。神经网络方法是基于传统统计学的基础,传统统计学研究的内容是样本量无穷大时的渐进理论,即当样本量趋于无穷多时的统计性质,而实际问题中样本量往往是有限的。因此,假设样本量无穷多,并以此推导出的各种算法很难在样本量有限时取得理想的应用效果。支持向量机方法是基于统计学理论的基础,与传统统计学理论不同,支持向量机主要是针对小样本情况,且最优解是基于有限的样本信息,而不是样本量趋于无穷大时的最优解。但是当针对大样本情况时该方法的存储和计算将耗费大量的机器内存和运算时间。
技术实现思路
本专利技术对湖库水华预测方法进行研究,目的是解决现有的水华预测精度不高、难以针对小样本数据预测等问题,针对实际具有非平稳和非线性特性的水华形成过程特征因素时序,采用多元非平稳时序分析方法建模,并考虑不同样本量的情况下,利用适于非线性系统建模的神经网络及支持向量机方法对时序模型的预测误差进行补偿,从而提高水华预测精度,为环保部门提供有效的参考依据,对湖库水环境的保护和改善起到重要的防治作用。为便于说明,本说明书中所有未经解释的名词及字母含义均由下述假设解释:与水华现象有关的特征因素分为两种:一种是影响水华发生的特征因素,例如氮、磷、pH值、溶解氧、水温、光照度等,以下叫做影响因素;另一种是表征水华发生的特征因素,例如叶绿素浓度、藻密度等,以下叫做表征因素。以Yt表示t时刻的特征因素向量;以yit表示第i个特征因素在t时刻的量值,总采样时间为N,t=l,2,…,N,共有η个特征因素,i=l,2,…,η。本专利技术提供的主要包括以下五个步骤:步骤一、特征因素多元非平稳时序建模;1、确定特征因素时序结构;考虑到实际水华形成过程中特征因素时序可能存在的非平稳、周期性以及随机性变化,采用多元非平稳时间序列分析技术,将t时刻的特征因素向量Yt分解为趋势项Ft、周期项Ct和随机项Rt的叠加,以fit表示第i个特征因素的趋势项,Cit为第i个特征因素的周期项,rit为第i个特征因素的随机项,i=l, 2,…,η,即【权利要求】1.,其特征在于: 步骤一、特征因素多元非平稳时序建模; (1)、确定特征因素时序结构; 以Yt表示t时刻的特征因素向量;以yit表示第i个特征因素在t时刻的量值,总采样时间为N,t=l, 2,…,N,共有η个特征因素,i=l, 2,…,η ;将t时刻的特征因素向量Yt分解为趋势项Ft、周期项Ct和随机项Rt的叠加,以fit表示第i个特征因素的趋势项,Cit为第i个特征因素的周期项,rit为第i个特征因素的随机项,i=l, 2,…,η,即2.根据权利要求1所述的,其特征在于:对误差影响因素进行核主成分分析的具体步骤如下: (1)对数据预处理,将水华影响因素,以及表征因素预测误差共η个指标的一批数据写成一个((N-Nt) Xn)维数据矩阵;所述影响因素包括pH、耗氧量、温度、总氮、总磷和溶解氧; (2)通过核主成分分析的方法提取出该数据矩阵中各因素之间的非线性关系,根据主成分的特征向量比较各水华影响因素与表征因素预测误差的相关性,从而确定最终的表征因素预测误差影响因素。3.根据权利要求1所述的,其特征在于:神经网络误差建模的具体步骤如下: (1)遗传算法优化初值; 根据由步骤二得到的表征因素预测误差影响因素的个数以及表征因素的个数进行种群初始化,即采用实数编码方式,设有若干个个体的实数编码种群,它的染色体长L为:L = L1*R+R*L2+R+L2 其中L1、L2分别为BP神经网络的输入、输出数据向量的维数,即表征因素预测误差影响因素的个数以及表征因素的个数,R为BP神经网络隐层神经元的个数;通过遗传算法,从该种群中搜索出最优个体,从而得到BP神经网络初始权值的最优解; (2)神经网络建模训练;将由步骤二确定的Nt+1,Nt+2,…,N时刻的表征因素预测误差影响因素作为BP神经网络的输入,将Nt+l,Nt+2,…,N时刻的表征因素时序预测误差作为输出,以遗传算法得出的优化初值作为BP神经网络的初始权值,对表征因素时序预测误差进行BP神经网络建模训练; (3)神经网络误差预测; 采用训练好的BP神经网络模型,将Ν+1,Ν+2,…时刻的表征因素预测误差影响因素作为BP神经网络的输入,输出N+l,N+2本文档来自技高网
...

【技术保护点】
基于多元非平稳时间序列分析与神经网络及支持向量机补偿的湖库藻类水华预测方法,其特征在于:步骤一、特征因素多元非平稳时序建模;(1)、确定特征因素时序结构;以Yt表示t时刻的特征因素向量;以yit表示第i个特征因素在t时刻的量值,总采样时间为N,t=1,2,…,N,共有n个特征因素,i=1,2,…,n;将t时刻的特征因素向量Yt分解为趋势项Ft、周期项Ct和随机项Rt的叠加,以fit表示第i个特征因素的趋势项,cit为第i个特征因素的周期项,rit为第i个特征因素的随机项,i=1,2,…,n,即Yt=Ft+Ct+Rt(1)Yt=y1ty2t...ynt,Ft=f1tf2t...fnt,Ct=c1tc2t...cnt,Rt=r1tr2t...rnt]]>(2)、建立特征因素时序趋势项模型;趋势项Ft为n维以时间t为自变量的回归函数向量,其表达式为:Ft=F(t)=f1tf2t...fnt=g1(t)+y01g2(t)+y02...gn(t)+y0n---(2)]]>其中,F(t)为n维回归函数向量,gi(t)为第i个特征因素的回归函数,其函数结构由第i个特征因素与时间的相关关系决定,y0i为第i个特征因素的初始值,i=1,2,…,n;(3)、建立特征因素时序周期项模型及随机项模型;对特征因素时序周期项和随机项分别采用特征因素的多重潜周期模型和多元自回归模型建模;(4)、表征因素时序预测;将表征因素时序预测值分为误差建模用数据和预测用数据;首先对前Nt个时刻的特征因素时序进行多元非平稳时序建模,得到Nt+1,Nt+2,…,N,N+1,N+2,…时刻的表征因素时序预测值,1<Nt<N;将Nt+1,Nt+2,…,N时刻表征因素时序预测值作为误差建模用数据,根据Nt+1,Nt+2,…,N时刻表征因素真实值,得到Nt+1,Nt+2,…,N时刻表征因素时序预测误差,即表征因素时序预测误差=表征因素真实值‑表征因素时序预测值(3)则该表征因素时序预测误差即可为后续的误差影响因素核主成分分析及表征因素时序预测误差建模所用;将N+1,N+2,…时刻表征因素时序预测值作为预测用数据,以实现对N+1,N+2,…时刻表征因素的最终预测;所建特征因素多元非平稳时序模型,如下:Yt=Ft+Ct+Rt=F(t)+C(t)+Σj=1pHjRt-j+Et.]]>其中C(t)为多重潜周期模型的多重潜周期函数,p为多元自回归阶数,Ηj为n×n多元自回归系数矩阵,Rt‑j为在t‑j时刻下的随机项,Εt为相互独立且服从N[0,Q]的n维白噪声向量,Q为n维白噪声的方差矩阵。对表征因素在Nt时刻向前预测l步,l=12,…,采用特征因素多元非平稳时序模型最佳预测公式:YNt+1=F(Nt+l)+C(Nt+l)+Σj=1pHjRNt+l-j]]>进行预测,其中为Nt+l(l>0)时刻的特征因素向量预测值,F(Nt+l)为Nt+l时刻趋势项预测值,C(Nt+l)为Nt+l时刻周期项预测值,为Nt+l‑j时刻随机项预测值,取其中的表征因素预测值作为表征因素时序预测结果;步骤二、误差影响因素核主成分分析;如果表征因素预测误差的主要影响因素为大样本数据,转步骤三;否则转步骤四;步骤三、神经网络误差建模;步骤四、支持向量机误差建模;步骤五、误差补偿;将N+1,N+2,…时刻的表征因素时序预测值与表征因素时序预测误差的预测值相加,得到N+1,N+2,…时刻表征因素最终预测值,即表征因素时序预测误差补偿后的预测值,其公式如下:表征因素最终预测值=表征因素时序预测值+表征因素时序预测误差的预测值(4)从而实现采用非线性的神经网络及支持向量机模型建立的误差预测模型对线性的多元非平稳时序模型预测结果的误差补偿。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王立王小艺许继平于家斌施彦王凌斌
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1