The level of air quality prediction method of the invention relates to a fusion sequence pattern mining and cost sensitive learning, firstly, sequential pattern mining from the air quality grade of historic data, tectonic sequence pattern tree; and then extracted from the air quality and meteorological characteristics of historical data, cost sensitive learning prediction model based on cost sensitive technology training; finally the fusion sequence pattern tree and cost sensitive prediction model for the prediction of the final level of air quality. Based on the existing air quality level prediction method based on machine learning, this method takes account of the change of air quality grade and the prediction error cost of imbalance, which can effectively improve the prediction performance of the model.
【技术实现步骤摘要】
一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法
本专利技术涉及机器学习
,尤其涉及一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法。
技术介绍
空气污染是当下一个十分严重的城市问题,对空气质量等级进行监测、预测对于污染评估、污染控制、降低危害具有重要意义。目前,空气质量等级是通过空气质量监测站点进行实时监测的,而空气质量等级预测则需要通过设计合理的计算模型来实现。现有空气质量等级预测方法主要有以下两类:(1)大气污染物扩散计算模型:是一种经验式方法,通过污染物浓度、风向、风力等参数计算一段时间后不同位置处的空气质量等级。然而,此类方法一方面需要精确知道所有污染物释放源的位置和强度,另一方面需要进行大量的物理化学实验来得到模型,因此只适用于小范围可控环境的空气质量等级预测,无法应用于整个城市的空气质量等级预测。(2)基于机器学习的分类模型:是一种数据驱动式方法,通过从污染物、气象等相关数据中抽取特征,并基于机器学习技术训练空气质量等级预测模型。然而,此类方法也存在如下问题:首先,大多现有方法训练判别式模型(如决策树、支持向量机等)。判别式模型仅考虑特征与空气质量等级间的关联,不考虑空气质量等级本身的变化模式。虽然也有少量现有方法通过训练产生式模型(如隐马尔科夫模型等)来处理空气质量等级的前后变化关联,但产生式模型的固有限制(如独立性假设等)导致其只能处理时间跨度短的、统一的变化趋势,无法处理时间跨度长的、复杂的变化模式。其次,现有分类模型的训练是以最小化分类错误率为目标的。实际上,空气质量等级的分类错误不能简单的统一对待(例如,假定真 ...
【技术保护点】
一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于,包括如下步骤:(1)从空气质量等级历史序列数据中挖掘序列模式,构造序列模式树;(2)利用空气质量数据和气象历史数据构建训练样本集并抽取特征,基于代价敏感学习算法训练代价敏感预测模型;(3)基于训练样本集,预测融合序列模式树和代价敏感预测模型,完成空气质量等级预测。
【技术特征摘要】
1.一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于,包括如下步骤:(1)从空气质量等级历史序列数据中挖掘序列模式,构造序列模式树;(2)利用空气质量数据和气象历史数据构建训练样本集并抽取特征,基于代价敏感学习算法训练代价敏感预测模型;(3)基于训练样本集,预测融合序列模式树和代价敏感预测模型,完成空气质量等级预测。2.根据权利要求1所述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述步骤(1)得到序列模式树的方法如下:(1.1)从空气质量等级历史序列数据AS中找出所有频繁空气质量等级,并基于AS对每个频繁空气质量等级a1生成投影数据,将所有生成的投影数据合并构成初始投影数据库PS;(1.2)以当前投影数据库PS为输入,对其中每个投影数据P,从P的子序列集SSP中找出所有频繁空气质量等级,并基于P对每个频繁空气质量等级a2生成投影数据,将所有生成的投影数据合并构成投影数据库PSP;(1.3)判断当前投影数据库PSP是否为空,若不为空则返回执行步骤(1.2);否则进入步骤(1.4);(1.4)对每个投影数据P生成一个序列模式,将生成的所有序列模式构成序列模式集;(1.5)将序列模式集中的每个序列模式作为一个分支进行插入操作,构造得到序列模式树TM。3.根据权利要求2所述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述的频繁空气质量等级为出现次数大于阈值δ的空气质量等级,其中,阈值δ是预设的。4.根据权利要求所2述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述基于AS对a1生成投影数据的方法如下:(I)搜索a1在AS中的所有出现位置,并对每个出现位置i,截取AS中位置从i+1开始到末尾的部分形成子序列;(II)将a1作为前缀,结合生成的子序列集构成一个投影数据P;其中,其前缀记为PRP,其子序列集记为SSP。5.根据权利要求所4述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述基于P对a2生成投影数据的方法如下:(i)将a2附加到P的前缀PRP后面形成新的前缀NPR;(ii)对SSP中每个子序列SP,若SP中的第一个空气质量等级等于a2,则截取SP中位置从2开始到末尾的部分形成新的子序列;(iii)将NPR作为前缀和生成的新的子序列集构成一个投影数据。6.根据权利要求所2述的一种融合序列模式挖掘和代价敏感学习的空气质量等级预测方法,其特征在于:所述的序列模式树中每个节点对应一个空气质量等级和一个支持度,其中,对序列模式M进行插...
【专利技术属性】
技术研发人员:吕明琪,陈岭,李一帆,张圣,陈铁明,
申请(专利权)人:杭州尚青科技有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。