当前位置: 首页 > 专利查询>淮阴工学院专利>正文

基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法技术

技术编号:22817656 阅读:48 留言:0更新日期:2019-12-14 13:21
本发明专利技术公开了一种基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,包括:(1)对空气数据集进行预处理,得到处理后的空气数据集;(2)采用Kohonen网络聚类得到第k类数据集;(3)采用ReliefF特征选择算法处理数据集,得到第k类数据集特征重要程度的排名;(4)通过特征重要程度排名,得到第k类经过特征选择后的数据集;(5)通过NAR神经网络得到第k类NAR神经网络训练模型;(6)根据数据x所在类的特征排名选取特征,得到预测结果。本发明专利技术利用Kohonen网络聚类对空气数据进行聚类,获得在相同时间段内变化规律相似的类别,发掘更为准确的预测模型,提高预测精度;利用ReliefF特征选择算法获得特征排名,去除对预测帮助较小的特征,从而提高运行效率。

Prediction method of air quality index based on Kohonen network clustering and relief f feature selection

【技术实现步骤摘要】
基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法
本专利技术涉及无监督聚类和预测
,具体涉及一种基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法。
技术介绍
空气质量指数是用来评价空气质量的重要指标,通过对一氧化碳浓度、二氧化氮浓度、臭氧浓度、PM10浓度、PM2.5浓度、二氧化硫浓度进行计算,从而得出空气质量指数。空气质量指数越高,空气污染越严重,反之,空气质量越好。与天气具有阴晴等不同模式一样,空气在相同时间段内也具有不同的模式。在面向空气质量指数预测问题时,浙江工商大学王效灵等人提出了一种基于PSODE-BP神经网络的空气质量预测方法(中国专利公开号:CN109063938A,2018.12.21),用CPSODE算法来优化BP神经网络的连接权值和阈值,这种方法并未充分挖掘空气之间的关系,即在相同时间段内空气存在不同的模式,只运用一个统一模型进行预测,没有对不同的空气模式进行处理;上海电力学院的张挺提出了一种基于聚类算法的空气质量预测方法(中国专利公开号:CN108564110A,2018.09.21),通过计算待预测的数据与聚类后子类平均向量的距离,选取该子类中距离最近的向量作为待预测值,大量的特征导致运行效率降低,同时泛化性能差。
技术实现思路
专利技术目的:为了克服现有技术的不足,本专利技术提供一种基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,该方法解决了预测时特征量过多且未曾考虑空气具有不同的模式导致的预测效率差的问题。技术方案:本专利技术所述的基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,包括:(1)对原始空气数据集Air进行预处理,得到处理后的空气数据集A;(2)采用Kohonen网络聚类,将数据集A分为m类,得到第k类数据集Ak,k∈[1,m];(3)采用ReliefF特征选择算法处理数据集Ak,得到第k类数据集Ak特征重要程度的排名Rk;(4)通过特征重要程度排名Rk,删去第k类数据集Ak排名后c个特征,得到第k类经过特征选择后的数据集Fk;(5)通过NAR神经网络,用数据集Fk前t天的数据预测t+1天的空气质量指数,得到第k类NAR神经网络训练模型netk。(6)随机选取数据集A中一条数据x,根据x所在类的特征排名Rz选取特征,用模型netz得到预测结果y。进一步地,包括:所述步骤1的具体方法为:(11)数据集Air定义为:COu,PM10u,PM2.5u,AQIu分别为第u天的一氧化碳浓度、二氧化氮浓度、臭氧浓度、PM10浓度、PM2.5浓度、二氧化硫浓度和空气质量指数,共n条数据,其中,Air=[air1,air2,…,airu,…,airn-1,airn]T,(12)对每个特征进行归一化处理;(13)从第一条数据开始,将t天内的数据及第t+1天的空气质量指数按照时间顺序整理为一条数据,得到有n-t条数据、7×t+1个特征的数据集A,A=[a1,…,au,…,an-t-1,an-t]T,au=[COu,...,AQIu,COu+1,...,AQIu+t-1,AQIu+t]。进一步地,包括:所述步骤2的具体方法为:(21)定义Kohonen网络的输入为Ii,定义数据集I为数据集A的前7×t个特征,I={I1,I2,…,Ii,…,In-t},i∈[1,n-t];(22)定义Kohonen网络的输出为J,J={J1,J2,…,Jj,…,J7×t},j∈[1,7×t];(23)定义输入层与输出层之间的权重为Wij,Wij的初始值随机确定;(24)定义Kohonen网络的学习率为δ(s),领域宽度为当前迭代次数为s,最大迭代次数为T,s∈[0,T];(25)令i=1,s=0,j=1;(26)计算Ii中Iij与J中Jj之间的距离dij,dij=||Iij-Wij||;(27)j=j+1;(28)如果j>7×t,跳转到步骤(29),否则,跳转到步骤(26)(29)对于输入样本Ii,从输出层中找到最佳匹配特性的节点ji,即mindij所在的节点;(210)计算领域宽度函数值并调整权值:Wij(s+1)=Wij(s)+n(s)δ(s)(Iij-Wij(s));(211)s=s+1;(212)如果s>T,跳转到步骤(213),否则跳转到步骤(26);(213)计算其余样本Ip在此网络中与权重之间的距离Di,Di={d1,d2,…,dp,…,dn-t-1},(214)对于输入样本Ii,从Di中选取距离最小的样本归属为一类;(215)i=i+1;(216)如果i>n-t,跳转到步骤(217),否则跳转到步骤(25);(217)所有样本聚类完成,分为m类,得到第k类数据集Ak,k∈[1,m]。进一步地,包括:所述步骤3的具体包括:(31)定义第k类数据集Ak的第f个特征,f∈[1,7×t],f的初始值为1;(32)定义数据集Ak为ReliefF算法的类别Fk1,其余类别为ReliefF算法的类别Fk2,k的初始值为1;(33)定义Pk为类别Fk1在数据集A中所占的比例;(34)定义diff(f,x,y)表示样本x与样本y在特征f上的差,如果x(f)=y(f),则diff(f,x,y)=0,否则diff(f,x,y)=1;(35)从类别Fk1中随机选取一个样本x,选取与该样本距离最近的q个最近邻Hk,Hk={h1,h2,…,hr,…,hq},从类别Fk2中选取与该样本距离最近的q个最近邻Mk,Mk={m1,m2,…,mr,…,mq};(36)令特征权重W(f)=0;表示为:(37)f=f+1;(38)如果f>7×t,跳转到步骤(39),否则跳转到步骤(35);(39)对特征权重W(f)进行排序,得到第k类数据集Ak的特征排名Rk;(310)k=k+1;(311)如果k>m,跳转到步骤(312),否则,跳转到步骤(34);(312)得到所有类别的特征排名R,R={R1,R2,…,Rk,…,Rm}。进一步地,包括:所述步骤4具体包括:(41)令f=7×t;(42)查询特征f在Rk中的特征排名;(43)如果f在特征排名Rk后c个,c∈[1,7×t-1],则跳转到步骤(44),否则跳转到步骤(46);(44)如果f不是空气质量指数,则跳转到步骤(45),否则跳转到步骤(46);(45)删除f所在特征;(46)f=f-1;(47)如果f=0,则跳转到步骤(48),否则跳转到步骤(42);(48)遍历结束,得到第k类经过特征选择后的数据集Fk。...

【技术保护点】
1.一种基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,包括:/n(1)对原始空气数据集Air进行预处理,得到处理后的空气数据集A;/n(2)采用Kohonen网络聚类,将数据集A分为m类,得到第k类数据集A

【技术特征摘要】
1.一种基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,包括:
(1)对原始空气数据集Air进行预处理,得到处理后的空气数据集A;
(2)采用Kohonen网络聚类,将数据集A分为m类,得到第k类数据集Ak,k∈[1,m];
(3)采用ReliefF特征选择算法处理数据集Ak,得到第k类数据集Ak特征重要程度的排名Rk;
(4)通过特征重要程度排名Rk,删去第k类数据集Ak排名后c个特征,得到第k类经过特征选择后的数据集Fk;
(5)通过NAR神经网络,用数据集Fk前t天的数据预测t+1天的空气质量指数,得到第k类NAR神经网络训练模型netk;
(6)根据数据集A中随即数据x所在类的特征排名Rz选取特征,用模型netz得到预测结果y。


2.根据权利要求1所述的基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,所述步骤1的具体方法为:
(11)数据集Air定义为:COu,PM10u,PM2.5u,AQIu分别为第u天的一氧化碳浓度、二氧化氮浓度、臭氧浓度、PM10浓度、PM2.5浓度、二氧化硫浓度和空气质量指数,共n条数据,其中,Air=[air1,air2,…,airu,…,airn-1,airn]T,
(12)对每个特征进行归一化处理;
(13)从第一条数据开始,将t天内的数据及第t+1天的空气质量指数按照时间顺序整理为一条数据,得到有n-t条数据、7×t+1个特征的数据集A,A=[a1,…,au,…,an-t-1,an-t]T,au=[COu,...,AQIu,COu+1,...,AQIu+t-1,AQIu+t]。


3.根据权利要求1所述的基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,所述步骤2的具体方法为:
(21)定义Kohonen网络的输入为Ii,定义数据集I为数据集A的前7×t个特征,I={I1,I2,…,Ii,…,In-t},i∈[1,n-t];
(22)定义Kohonen网络的输出为J,J={J1,J2,…,Jj,…,J7×t},j∈[1,7×t];
(23)定义输入层与输出层之间的权重为Wij,Wij的初始值随机确定;
(24)定义Kohonen网络的学习率为δ(s),领域宽度为当前迭代次数为s,最大迭代次数为T,s∈[0,T];
(25)令i=1,s=0,j=1;
(26)计算Ii中Iij与J中Jj之间的距离dij,dij=||Iij-Wij||;
(27)j=j+1;
(28)如果j>7×t,跳转到步骤(29),否则,跳转到步骤(26)
(29)对于输入样本Ii,从输出层中找到最佳匹配特性的节点ji,即mindij所在的节点;
(210)计算领域宽度函数值并调整权值:
Wij(s+1)=Wij(s)+n(s)δ(s)(Iij-Wij(s));
(211)s=s+1;
(212)如果s>T,跳转到步骤(213),否则跳转到步骤(26);
(213)计算其余样本Ip在此网络中与权重之间的距离Di,Di={d1,d2,…,dp,…,dn-t-1},
(214)对于输入样本Ii,从Di中选取距离最小的样本归属为一类;
(215)i=i+1;
(216)如果i>n-t,跳转到步骤(217),否则跳转到步骤(25);
(217)所有样本聚类完成,分为m类,得到第k类数据集Ak,k∈[1,m]。


4.根据权利要求1所述的基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法,其特征在于,所述步骤3的具体包括:
(31)定义第k类数据集Ak的第f个特征,f∈[1,7×t],f的初始值为1;
(32)定义数据集Ak为ReliefF算法的类别Fk1,其余类别为ReliefF算法的类别Fk2,k的初始值为1;
(33)定义Pk为类别Fk1在数据集A中所占的比例;
(34)定义diff(f,x,y)表示样本x与样本y在特征f上的差,如果x(f)=y(f),则diff(f,x,y)=0,否则diff(f,x,y)=1;
(35)从类别Fk1中随机选取一个样本x,选取与该样本距离最近的q个最近邻Hk,Hk={h1,h2,…,hr,...

【专利技术属性】
技术研发人员:陈伯伦朱国畅朱全银袁燕于永涛马甲林
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1