一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法技术

技术编号:17390415 阅读:59 留言:0更新日期:2018-03-04 14:59
本发明专利技术涉及一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,本方法首先从空气质量等级历史序列数据中挖掘序列模式,构造序列模式树;然后从空气质量和气象历史数据中抽取特征,基于代价敏感学习技术训练代价敏感预测模型;最后融合序列模式树和代价敏感预测模型用于最终的空气质量等级预测。该方法在现有基于机器学习的空气质量等级预测方法的基础上,考虑了空气质量等级的变化模式和不平衡的预测错误代价,可有效提高模型的预测性能。

An air quality prediction method for fusion sequence pattern mining and cost sensitive learning

The level of air quality prediction method of the invention relates to a fusion sequence pattern mining and cost sensitive learning, firstly, sequential pattern mining from the air quality grade of historic data, tectonic sequence pattern tree; and then extracted from the air quality and meteorological characteristics of historical data, cost sensitive learning prediction model based on cost sensitive technology training; finally the fusion sequence pattern tree and cost sensitive prediction model for the prediction of the final level of air quality. Based on the existing air quality level prediction method based on machine learning, this method takes account of the change of air quality grade and the prediction error cost of imbalance, which can effectively improve the prediction performance of the model.

【技术实现步骤摘要】
一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法
本专利技术涉及机器学习
,尤其涉及一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法。
技术介绍
空气污染是当下一个十分严重的城市问题,对空气质量等级进行监测、预测对于污染评估、污染控制、降低危害具有重要意义。目前,空气质量等级是通过空气质量监测站点进行实时监测的,而空气质量等级预测则需要通过设计合理的计算模型来实现。现有空气质量等级预测方法主要有以下两类:(1)大气污染物扩散计算模型:是一种经验式方法,通过污染物浓度、风向、风力等参数计算一段时间后不同位置处的空气质量等级。然而,此类方法一方面需要精确知道所有污染物释放源的位置和强度,另一方面需要进行大量的物理化学实验来得到模型,因此只适用于小范围可控环境的空气质量等级预测,无法应用于整个城市的空气质量等级预测。(2)基于机器学习的分类模型:是一种数据驱动式方法,通过从污染物、气象等相关数据中抽取特征,并基于机器学习技术训练空气质量等级预测模型。然而,此类方法也存在如下问题:首先,大多现有方法训练判别式模型(如决策树、支持向量机等)。判别式模型仅考虑特征与空气质量等级间的关联,不考虑空气质量等级本身的变化模式。虽然也有少量现有方法通过训练产生式模型(如隐马尔科夫模型等)来处理空气质量等级的前后变化关联,但产生式模型的固有限制(如独立性假设等)导致其只能处理时间跨度短的、统一的变化趋势,无法处理时间跨度长的、复杂的变化模式。其次,现有分类模型的训练是以最小化分类错误率为目标的。实际上,空气质量等级的分类错误不能简单的统一对待(例如,假定真实的空气质量等级为2,将其错误预测为5的影响显然要比将其错误预测为3要大)。
技术实现思路
本专利技术为克服上述的不足之处,目的在于提供一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,本方法首先从空气质量等级历史序列数据中挖掘序列模式,构造序列模式树;然后从空气质量和气象历史数据中抽取特征,基于代价敏感学习技术训练代价敏感预测模型;最后融合序列模式树和代价敏感预测模型用于最终的空气质量等级预测。该方法在现有基于机器学习的空气质量等级预测方法的基础上,考虑了空气质量等级的变化模式和不平衡的预测错误代价,可有效提高模型的预测性能。本专利技术是通过以下技术方案达到上述目的:一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,包括如下步骤:(1)从空气质量等级历史序列数据中挖掘序列模式,构造序列模式树;(2)利用空气质量数据和气象历史数据构建训练样本集并抽取特征,基于代价敏感学习算法训练代价敏感预测模型;(3)基于训练样本集,预测融合序列模式树和代价敏感预测模型,完成空气质量等级预测。作为优选,所述步骤(1)得到序列模式树的方法如下:(1.1)从空气质量等级历史序列数据AS中找出所有频繁空气质量等级,并基于AS对每个频繁空气质量等级a1生成投影数据,将所有生成的投影数据合并构成初始投影数据库PS;(1.2)以当前投影数据库PS为输入,对其中每个投影数据P,从P的子序列集SSP中找出所有频繁空气质量等级,并基于P对每个频繁空气质量等级a2生成投影数据,将所有生成的投影数据合并构成投影数据库PSP;(1.3)判断当前投影数据库PSP是否为空,若不为空则返回执行步骤(1.2);否则进入步骤(1.4);(1.4)对每个投影数据P生成一个序列模式,将生成的所有序列模式构成序列模式集;(1.5)将序列模式集中的每个序列模式作为一个分支进行插入操作,构造得到序列模式树TM。作为优选,所述的频繁空气质量等级为出现次数大于阈值δ的空气质量等级,其中,阈值δ是预设的。作为优选,所述基于AS对a1生成投影数据的方法如下:(I)搜索a1在AS中的所有出现位置,并对每个出现位置i,截取AS中位置从i+1开始到末尾的部分形成子序列;(II)将a1作为前缀,结合生成的子序列集构成一个投影数据P;其中,其前缀记为PRP,其子序列集记为SSP。作为优选,所述基于P对a2生成投影数据的方法如下:(i)将a2附加到P的前缀PRP后面形成新的前缀NPR;(ii)对SSP中每个子序列SP,若SP中的第一个空气质量等级等于a2,则截取SP中位置从2开始到末尾的部分形成新的子序列;(iii)将NPR作为前缀和生成的新的子序列集构成一个投影数据。作为优选,所述的序列模式树中每个节点对应一个空气质量等级和一个支持度,其中,对序列模式M进行插入操作的方法为:采用深度搜索算法在当前序列模式树中进行查找,若不存在任何分支与M匹配,则将M作为子节点序列插入序列模式树根节点,其中每个子节点的支持度均为M的支持度;若存在分支与M部分匹配,则将M中未匹配的部分作为子节点序列插入序列模式树中匹配到的最低层节点,同时更新模式树中匹配部分每个节点的支持度,支持度取节点原有支持度和M支持度中的较大者。作为优选,所述步骤(2)训练得到代价敏感预测模型的方法如下:(2.1)用一个滑动窗口对当前监测站点和其周围其它监测站点的空气质量和气象历史数据进行切分,切分后每个窗口对应一个训练样本,将得到的样本构建成训练样本集;(2.2)对训练样本集中的每个样本,从当前监测站点和其周围其它监测站点的空气质量数据和气象数据中抽取各类特征;(2.3)构建代价矩阵:计算所有“真实值-预测值”的预测错误代价,并构建代价矩阵;(2.4)输入训练样本集中每个样本的特征向量和真实空气质量等级以及代价矩阵,采用代价敏感学习算法训练代价敏感预测模型CM。作为优选,所述的各类特征包括空气质量特征、气象特征、周边站点特征。作为优选,所述步骤(3)的具体步骤为:(3.1)对训练样本集中每一个训练样本i,分别利用序列模式树TM和代价敏感预测模型CM对其进行预测,分别得到概率向量PTM,i和PCM,i,PTM,i[k]为TM预测训练样本i为空气质量等级k的概率,PCM,i[k]为CM预测训练样本i为空气质量等级k的概率;(3.2)将训练样本i的预测结果,即概率向量PTM,i和PCM,i,作为新的特征,构造新的训练样本集,并基于新的训练样本集,采用逻辑回归算法训练得到预测融合模型FM。作为优选,所述使用序列模式树对训练样本i进行预测的方法如下:(a)以当前监测站点最近时间段th内的空气质量等级序列数据RS作为输入,在序列模式树中进行匹配查询;(b)若查询得到序列模式树某一分支的前缀与RS匹配,则对该分支按最大支持度进行深度遍历,生成预测结果;在预测结果中,预测空气质量等级为k的概率为k对应的节点的支持度与其父节点的支持度的比值;若序列模式树所有分支均无法与RS匹配,则缩短RS的长度并重新进行匹配查询,直到RS的长度被缩短为1。本专利技术的有益效果在于:(1)本专利技术考虑了空气质量等级本身的变化模式,并将其和基于机器学习的预测方法进行融合,可有效提高空气质量等级的预测性能;(2)本专利技术考虑了不平衡的空气质量预测错误代价,并将其用于空气质量预测模型的训练,可有效降低预测错误带来的负面影响。附图说明图1是本专利技术的方法流程示意图;图2是本专利技术的序列模式挖掘流程示意图;图3是本专利技术的代价敏感学习流程示意图;图4是本专利技术的预测融合流程示意图。具体实施方式下面结合具体实施例对本专利技术本文档来自技高网
...
一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法

【技术保护点】
一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于,包括如下步骤:(1)从空气质量等级历史序列数据中挖掘序列模式,构造序列模式树;(2)利用空气质量数据和气象历史数据构建训练样本集并抽取特征,基于代价敏感学习算法训练代价敏感预测模型;(3)基于训练样本集,预测融合序列模式树和代价敏感预测模型,完成空气质量等级预测。

【技术特征摘要】
1.一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于,包括如下步骤:(1)从空气质量等级历史序列数据中挖掘序列模式,构造序列模式树;(2)利用空气质量数据和气象历史数据构建训练样本集并抽取特征,基于代价敏感学习算法训练代价敏感预测模型;(3)基于训练样本集,预测融合序列模式树和代价敏感预测模型,完成空气质量等级预测。2.根据权利要求1所述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述步骤(1)得到序列模式树的方法如下:(1.1)从空气质量等级历史序列数据AS中找出所有频繁空气质量等级,并基于AS对每个频繁空气质量等级a1生成投影数据,将所有生成的投影数据合并构成初始投影数据库PS;(1.2)以当前投影数据库PS为输入,对其中每个投影数据P,从P的子序列集SSP中找出所有频繁空气质量等级,并基于P对每个频繁空气质量等级a2生成投影数据,将所有生成的投影数据合并构成投影数据库PSP;(1.3)判断当前投影数据库PSP是否为空,若不为空则返回执行步骤(1.2);否则进入步骤(1.4);(1.4)对每个投影数据P生成一个序列模式,将生成的所有序列模式构成序列模式集;(1.5)将序列模式集中的每个序列模式作为一个分支进行插入操作,构造得到序列模式树TM。3.根据权利要求2所述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述的频繁空气质量等级为出现次数大于阈值δ的空气质量等级,其中,阈值δ是预设的。4.根据权利要求所2述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述基于AS对a1生成投影数据的方法如下:(I)搜索a1在AS中的所有出现位置,并对每个出现位置i,截取AS中位置从i+1开始到末尾的部分形成子序列;(II)将a1作为前缀,结合生成的子序列集构成一个投影数据P;其中,其前缀记为PRP,其子序列集记为SSP。5.根据权利要求所4述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述基于P对a2生成投影数据的方法如下:(i)将a2附加到P的前缀PRP后面形成新的前缀NPR;(ii)对SSP中每个子序列SP,若SP中的第一个空气质量等级等于a2,则截取SP中位置从2开始到末尾的部分形成新的子序列;(iii)将NPR作为前缀和生成的新的子序列集构成一个投影数据。6.根据权利要求所2述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述的序列模式树中每个节点对应一个空气质量等级和一个支持度,其中,对序列模式M进行插...

【专利技术属性】
技术研发人员:吕明琪陈岭李一帆张圣陈铁明
申请(专利权)人:杭州尚青科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1