The invention discloses a method for selecting characteristics of air pollutant concentration prediction. For air pollutants to be predicted, data sets with Granger causal association rules are selected from all air pollutant data sets by Granger causal association rules, and data sets with Granger causal association rules are formed together with data sets of historical pollutant data to be predicted. Subset. The present invention screens other pollutant data sets which are strongly related to the data set of pollutant concentration to be predicted from a large number of time-varying data sets of atmospheric pollution, so as to obtain the smallest feature set as possible, screen out redundant and weak correlation data sets and as features, and predict pollutant concentration with neural network. The feature subset selected by this method has strong pertinence, and there is a strong correlation between the data in the subset and the historical data.
【技术实现步骤摘要】
一种针对大气污染物浓度预测的选择特征的方法
本专利技术属于机器学习领域,尤其涉及一些因果关联规则,以及神经网络特征选择。
技术介绍
经典特征选择定义为从N个特征集合中选出M个特征的子集,并满足条件M≤N[1]。它包括特征提取和特征选择两个方面:特征提取广义上指的是一种变换,将处于高维空间的样本通过映射或变换的方式转换到低维空间,达到降维的目的;特征选择指从一组特征中去除冗余或不相关的特征来降维。二者常联合使用,如先通过变换将高维特征空间映射到低维特征空间,然后再去除冗余的和不相关的特征来进一步降低维数。至今为止,有很多学者从不同角度出发对特征获取进行过定义:Kira定义理想情况下的特征获取为寻找必要的、足以识别目标的最小尺寸特征子集;John从提高预测精度角度定义特征获取为选择特征子集来增加分类精度,或者在不降低分类器精度的条件下降低特征集维数的过程;Koller从类分布的角度定义特征获取为:在保证结果类分布尽可能与原始数据类分布相似的条件下,选择尽可能小的特征子集;Dash给出的定义是选择尽量小尺寸的特征子集,并满足不显著降低分类精度和不显著改变类分布两个条件。 ...
【技术保护点】
1.一种针对大气污染物浓度预测的选择特征的方法,其特征在于:首先确定想要预测的大气污染物的数据作为第一层数据集,然后对收集到的中除了第一层数据集的数据集与第一层数据集进行Granger因果检验,寻找与验证集数据存在因果关系的数据集,作为第二层的Granger因果检验数据集,然后再对除了第二层Granger因果检验数据集的与第二层的Granger因果检验数据集进行Granger因果检验,寻找与第二层的Granger因果检验数据集存在因果关系的数据集,作为第三层的Granger因果检验数据集,然后依次循环,直到没有更多一层的Granger因果检验数据集;将所得到的结果以树的数据 ...
【技术特征摘要】
1.一种针对大气污染物浓度预测的选择特征的方法,其特征在于:首先确定想要预测的大气污染物的数据作为第一层数据集,然后对收集到的中除了第一层数据集的数据集与第一层数据集进行Granger因果检验,寻找与验证集数据存在因果关系的数据集,作为第二层的Granger因果检验数据集,然后再对除了第二层Granger因果检验数据集的与第二层的Granger因果检验数据集进行Granger因果检验,寻找与第二层的Granger因果检验数据集存在因果关系的数据集,作为第三层的Granger因果检验数据集,然后依次循环,直到没有更多一层的Granger因果检验数据集;将所得到的结果以树的数据结构方式存储起来,从而得到对一种污染物浓度预测的具有Granger因果关系多层次的,强联系的数据集和来作为特征。2.根据权利要求1所述的一种针对大气污染物浓度预测的选择特征的方法,其特征在于:包括以下步骤:步骤1、获取大气污染数据集,并对大气污染数据集中数据进行预处理,得到经过预处理后的大气污染数据集,并且在下面的步骤对本数据集进行操作;步骤1具体包括以下步骤:步骤1.1使用最近距离决定填补法填补缺失值,由于大气污染数据为时序数据,并且时间因素对数据变化的影响不明显;所以使用最近距离决定填补法填补缺失值可以有效贴近实际值;步骤1.2采用离群点分析的方法,通过聚类检测离群点,由于污染物浓度不会突然大幅度变化,所以通过聚类检测离群点,纠正数据,减少数据噪声;步骤2、建立存储树,将想要预测的大气污染的污染物历史数据的所在站点和污染物类别存储在存储树的根节点即存储树第一层;下述步骤记录在存储树中的数据的记录形式与第一层一样;步骤3、将预测污染物数据与其他污染物数据进行Granger因果检验,将检验结果为预测污染物数据的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。