一种挖掘能见度多维时空数据之间格兰杰因果关系的方法技术

技术编号:19821948 阅读:14 留言:0更新日期:2018-12-19 14:45
本发明专利技术公开了一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,属于数据挖掘技术领域。首先选用部分样本数据利用格兰杰因果分析提取其中与能见度有因果关系的备选特征,然后把全部数据按照北京市不同行政区进行分类,利用Fc因果测量因子来确定不同区域之间的影响关系强弱,最后利用一种改进的时空Granger Lasso算法来训练因果关系模型,这样就得出不同区域、不同影响因子和能见度之间的格兰杰因果分数,实现了定性和定量的影响因素分析。

【技术实现步骤摘要】
一种挖掘能见度多维时空数据之间格兰杰因果关系的方法
本专利技术属于数据挖掘
,尤其涉及从多维时空序列数据中挖掘特征之间定性、定量的格兰杰因果关系。
技术介绍
多维时间序列包含一组离散时间的有序观测,它可以被看作是多个单变量时间序列的集合。这种序列数据在交通预测.、空气条件、经济等方面普遍存在。例如,大气能见度研究领域,近年来,随着矿物燃料的迅猛应用,使得大气中因油、煤和废弃物燃烧而产生的气溶胶粒子数量明显增加,造成大气能见度下降且空气浑浊,因此能见度污染问题受到人们的高度关注。对不同区域、不同类型的空气质量数据进行能见度影响因素的分析,可以揭示在时间、地域维度上的不同指标之间的隐藏关系以及能见度较低、恶劣天气的产生规律,从而为大气污染治理提供理论支持。因此得到一个多维时空序列数据的因果关系分析方法是非常具有实际意义的。对于因果关系挖掘,一部分采用贝叶斯网络挖掘序列数据之间的因果关系,然而这主要应用于非时间序列。而格兰杰因果是寻找时间序列数据中因果关系的常用方法。一般来说,给定两个时间序列X和Y,如果X与Y的历史信息的结合比使用X自身的历史信息更有利于预测X,就说Y是X的格兰杰因果原因。一个有向图G={V,E},称为格兰杰因果图,通常被用来可视化描述时间序列之间的格兰杰因果关系。在格兰杰因果图中,顶点代表子序列,而有向边va到vb,即eab,表示子序列a是子序列b的格兰杰因果关系。如图1所示,格兰杰因果图解释了时间序列2和时间序列5是所有其他序列的格兰杰因果关系原因,因此在这种情况下,焦点序列是时间序列2和时间序列5。现有的时空序列数据因果关系分析主要集中在影响因素之间的定性关系,近年来国内外学者也取得了一定的研究成果。例如SIN方法试用于特征较小的数据集,向量自回归方法可用来发现变量之间是否存在关联关系,互相关、传递熵、随机化试验和相位斜率指数的方法也可用于时间序列的关联关系挖掘之中。但是,这些方法主要用于发现单变量的静态关联关系,在实际应用中有很大的局限性,针对于挖掘海量时间序列数据在空间上多维数据之间的定性、定量的因果关系的问题没有完善的解决办法。
技术实现思路
本专利技术要解决的技术问题是,提供一种挖掘大气能见度多维时空数据之间格兰杰因果关系的方法,首先选用部分样本数据利用格兰杰因果分析提取其中与能见度有因果关系的备选特征(如体感温度、天气、风向、风速等),然后把全部数据按照北京市不同行政区进行分类,利用Fc因果测量因子来确定不同区域之间的影响关系强弱,最后利用一种改进的时空GrangerLasso算法来训练因果关系模型,这样就得出不同区域、不同影响因子和能见度之间的格兰杰因果分数,实现了定性和定量的影响因素分析。本专利技术面向海量能见度多维时空数据,提出了挖掘其中影响因素与能见度之间的格兰杰因果关系方法。先将海量的数据进行预处理,然后取出一部本样本集进行格兰杰因果关系分析,剔除掉一些与能见度没有格兰杰因果关系的影响因子,这样就减少了寻找能见度影响因子的搜索量。之后将数据按照不同的地区来划分,通过JulieYixuanZhu等人提出的Fc因果测量因子来测量不同区域之间的影响关系,这种方法可以筛选出区域之间影响强度最强的组合区域,避免了组合爆炸问题。然后利用优化的时空GrangerLasso算法来训练能见度的因果关系模型,这种方法基于传统的格兰杰算法进行了扩展,可以得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数,从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系。为了实现上述目的,本专利技术采用以下技术方案:一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,本方法的目的在于为避免在海量数据集中寻找特征之间因果关系的时间、空间耗用庞大的问题,采用了取部分样本集进行分析然后得出特征之间的格兰杰因果关系,为后续在时空层面的详细分析奠定基础。然后通过JulieYixuanZhu等人提出的Fc因果测量因子来测量不同区域之间的影响关系,这种方法可以筛选出区域之间影响强度最强的组合区域,避免了区域组合爆炸问题。最后利用优化的时空GrangerLasso算法来训练能见度的因果关系模型,这种方法基于传统的格兰杰算法进行了扩展,公式如下:其中Y代表在sy区域t时刻特征c的值,同理X代表在sx区域t时刻特征c的值。S代表区域,t代表时刻,c代表特征,x和y表示不同的两个区域,i和j表示不同的特征类型,k代表对应的时间滞后,Li和Lj则代表不同的时间滞后长度,a={ak}、b={bk}对应两个过程相应的权重,ξ香代表具有零均值和方差σ2的不相关随机变量。通过该式可以判断不同区域之间的特征是否有格兰杰因果关系。通过基于上述公式实现的优化之后的GrangerLasso算法进行训练,得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数,从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系。一种挖掘能见度多维时空数据之间格兰杰因果关系的方法包括以下步骤:步骤1、获取大气能见度领域的多维时空序列数据集,并对多维时空序列数据集中的数据进行预处理,通过利用众数填补缺失值和替换离群点数据,可以得到平滑的时间空间序列数据,为后续步骤做准备。步骤2、针对步骤1中得到数据,对于不同的能见度影响因子,取部分数据进行格兰杰因果关系分析便可得到其中的格兰杰因果关系,然后剔除掉与能见度没有格兰杰因果关系的影响特征,得到与能见度有格兰杰因果关系的各个特征的时间空间序列数据。步骤3、将步骤2得到的数据按照不同的区域来划分,通过Fc因果测量因子来确定不同区域之间的影响关系强弱,选出对每个区域影响最大的其他三个区域。步骤4、针对每个区域和对该区域影响最大的其他三个区域,利用优化的时空GrangerLasso算法来训练能见度的因果关系模型,最终得到不同区域、不同影响因子和能见度之间的格兰杰因果分数,最后将得到的结果汇总并可视化。作为优选,步骤2具体包括以下步骤:步骤2.1、为保证选取的部分样本数据的分布一致性,采用分层采样和多次随机划分法来切分数据;步骤2.2、采用Eviews对不同的影响因子和能见度进行其中的格兰杰因果关系分析,剔除掉与能见度没有格兰杰因果关系的影响因素;步骤2.3、输出所有备选影响因素里与能见度存在格兰杰因果关系的因素,为后续步骤做准备;作为优选,步骤3具体包括以下步骤:步骤3.1、将预处理之后的数据按照不同区域分类;步骤3.2、利用基于Fc因果测量因子的算法来确定不同区域之间的影响关系强弱;步骤3.3、输出对每个区域因果影响最大的其他三个区域,避免了区域之间的组合爆炸问题;作为优选,步骤4具体包括以下步骤:步骤4.1、输入选定的候选区域的数据,生成训练因果网络的特征;步骤4.2、利用GrangerLasso算法来训练因果关系模型的结构和其中的参数;步骤4.3、输出不同区域、不同影响因子和能见度之间的格兰杰因果分数,得到定性和定量的格兰杰因果关系分析。与现有技术相对,本专利技术具有以下明显优势:本专利技术方法首先在特征与特征之间挖掘定性的格兰杰因果关系,然后再具体化到不同区域特征之间的定性、定量化的格兰杰因果关系。在第一步中,通过采用分层采样和多次随机划分来确保选取的部分样本数据的分布一致性,这种方法避免了使用全部本文档来自技高网
...

【技术保护点】
1.一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,利用优化的时空Granger Lasso算法来训练能见度的因果关系模型,这种方法基于格兰杰算法进行了扩展,公式如下:

【技术特征摘要】
1.一种挖掘能见度多维时空数据之间格兰杰因果关系的方法,利用优化的时空GrangerLasso算法来训练能见度的因果关系模型,这种方法基于格兰杰算法进行了扩展,公式如下:其中Y代表在sy区域t时刻特征c的值,同理X代表在sx区域t时刻特征c的值;S代表区域,t代表时刻,c代表特征,x和y表示不同的两个区域,i和j表示不同的特征类型,k代表对应的时间滞后,Li和Lj则代表不同的时间滞后长度,a={ak}、b={bk}对应两个过程相应的权重,ξt代表具有零均值和方差σ2的不相关随机变量;通过该式可以判断不同区域之间的特征是否有格兰杰因果关系;通过基于上述公式实现的优化之后的GrangerLasso算法进行训练,得到不同空间、不同时间滞后和不同特征之间的格兰杰因果分数,从而定性、定量地分析各种影响因素与大气能见度的格兰杰因果关系;其特征在于:方法包括以下步骤:步骤1、获取大气能见度领域的多维时空序列数据集,并对多维时空序列数据集中的数据进行预处理,通过利用众数填补缺失值和替换离群点数据,可以得到平滑的时间空间序列数据,为后续步骤做准备;步骤2、针对步骤1中得到数据,对于不同的能见度影响因子,取部分数据进行格兰杰因果关系分析便可得到其中的格兰杰因果关系,然后剔除掉与能见度没有格兰杰因果关系的影响特征,得到与能见度有格兰杰因果关系的各个特征的时间空间序列数据;步骤3、将步骤2得到的数据按照不同的区域来划分,通过Fc因果测量因子来确定不同区域之间的影响关系强弱,选出对每个区域影响最大的其他三个区域;...

【专利技术属性】
技术研发人员:刘博贺玺
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1