一种挖掘能见度多维时空数据之间格兰杰因果关系的方法技术

技术编号：19821948 阅读：23 留言：0更新日期：2018-12-19 14:45

本发明专利技术公开了一种挖掘能见度多维时空数据之间格兰杰因果关系的方法，属于数据挖掘技术领域。首先选用部分样本数据利用格兰杰因果分析提取其中与能见度有因果关系的备选特征，然后把全部数据按照北京市不同行政区进行分类，利用Fc因果测量因子来确定不同区域之间的影响关系强弱，最后利用一种改进的时空Granger Lasso算法来训练因果关系模型，这样就得出不同区域、不同影响因子和能见度之间的格兰杰因果分数，实现了定性和定量的影响因素分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种挖掘能见度多维时空数据之间格兰杰因果关系的方法
本专利技术属于数据挖掘
，尤其涉及从多维时空序列数据中挖掘特征之间定性、定量的格兰杰因果关系。
技术介绍
多维时间序列包含一组离散时间的有序观测，它可以被看作是多个单变量时间序列的集合。这种序列数据在交通预测.、空气条件、经济等方面普遍存在。例如，大气能见度研究领域，近年来，随着矿物燃料的迅猛应用，使得大气中因油、煤和废弃物燃烧而产生的气溶胶粒子数量明显增加，造成大气能见度下降且空气浑浊，因此能见度污染问题受到人们的高度关注。对不同区域、不同类型的空气质量数据进行能见度影响因素的分析，可以揭示在时间、地域维度上的不同指标之间的隐藏关系以及能见度较低、恶劣天气的产生规律，从而为大气污染治理提供理论支持。因此得到一个多维时空序列数据的因果关系分析方法是非常具有实际意义的。对于因果关系挖掘，一部分采用贝叶斯网络挖掘序列数据之间的因果关系，然而这主要应用于非时间序列。而格兰杰因果是寻找时间序列数据中因果关系的常用方法。一般来说，给定两个时间序列X和Y，如果X与Y的历史信息的结合比使用X自身的历史信息更有利于预测X，...

【技术保护点】
1.一种挖掘能见度多维时空数据之间格兰杰因果关系的方法，利用优化的时空Granger Lasso算法来训练能见度的因果关系模型，这种方法基于格兰杰算法进行了扩展，公式如下：

【技术特征摘要】
1.一种挖掘能见度多维时空数据之间格兰杰因果关系的方法，利用优化的时空GrangerLasso算法来训练能见度的因果关系模型，这种方法基于格兰杰算法进行了扩展，公式如下：其中Y代表在sy区域t时刻特征c的值，同理X代表在sx区域t时刻特征c的值；S代表区域，t代表时刻，c代表特征，x和y表示不同的两个区域，i和j表示不同的特征类型，k代表对应的时间滞后，Li和Lj则代表不同的时间滞后长度，a＝{ak}、b＝{bk}对应两个过程相应的权重，ξt代表具有零均值和方差σ2的不相关随机变量；通过该式可以判断不同区域之间的特征是否有格兰杰因果关系；通过基于上述公式实现的优化之后的GrangerLasso算法进行训练，得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数，从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系；其特征在于：方法包括以下步骤：步骤1、获取大气能见度领域的多维时空序列数据集，并对多维时空序列数据集中的数据进行预处理，通过利用众数填补缺失值和替换离群点数据，可以得到平滑的时间空间序列数据，为后续步骤做准备；步骤2、针对步骤1中得到数据，对于不同的能见度影响因子，取部分数据进行格兰杰因果关系分析便可得到其中的格兰杰因果关系，然后剔除掉与能见度没有格兰杰因果关系的影响特征，得到与能见度有格兰杰因果关系的各个特征的时间空间序列数据；步骤3、将步骤2得到的数据按照不同的区域来划分，通过Fc因果测量因子来确定不同区域之间的影响关系强弱，选出对每个区域影响最大的其他三个区域；...

【专利技术属性】
技术研发人员：刘博，贺玺，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人