一种基于峭度的因果网络推断方法技术

技术编号:15691026 阅读:70 留言:0更新日期:2017-06-24 03:53
本发明专利技术涉及一种基于峭度的因果网络推断方法,通过基于峭度选择外生变量、逐层找出因果次序和利用最小二乘法剪边检验剪边三个过程,从而输出完整的因果网络,本发明专利技术对干扰变量的非高斯性的程度不敏感,稳定性强,特别是当非高斯性很弱时,依然能够保持很高的识别率,复杂度低,只需要对每个变量自身计算峭度,是一种直接的估计方式,因果网络识别正确率高。

A causal network inference method based on kurtosis

The invention relates to a causal network inference method based on kurtosis, the kurtosis of the choice of exogenous variables, using the least squares method to identify the causal sequence and cutting edge test cutting edge three process layer based on the output to complete a causal network, is not sensitive to the interference of non Gauss variable degree of strong stability especially when Gauss is very weak, is still able to maintain a high recognition rate, low complexity, only need to calculate the kurtosis of each variable itself is a direct way to estimate the causal network, high recognition rate.

【技术实现步骤摘要】
一种基于峭度的因果网络推断方法
本专利技术涉及一种数据挖掘
,尤其是一种基于峭度的因果网络推断方法。
技术介绍
目前,从观察数据中发现因果关系得到广泛的关注,并应用在许多领域,例如神经科学,经济学和流行病学等。在没有任何先验知识的情况下,传统的因果发现方法只能够找到马尔可夫等价类,需要借助干预实验来获得一个完整的网络,但实际情况下许多变量是不能够做干预操作。Shimizu等人提出的线性非高斯无环模型(LiNGAM)可以很好地解决这个问题,该模型能够仅仅从观察数据集中识别完整的因果网络而得到越来越多研究。针对线性非高斯无环模型(LiNGAM)模型的估计主要有三种思路:第一种是将问题转化为现有问题,例如借助独立成分分析(ICA)技术来求解的ICA-LiNGAM算法;第二种是利用贝叶斯评分方法构建因果网络,例如BayesLiNGAM算法;第三种是使用两两独立性来识别外生变量,逐层地估计因果次序,例如DirectLiNGAM算法和LR算法;然而前两种思路是将问题转换成一个函数优化问题,然后利用一些优化算法来解决,但是它们都有对初始值敏感,容易陷入局部收敛的缺陷;对于第三种方法,将当前变量与其余所有变量的残差最独立的一个作为外生变量是不可靠的衡量标准;使用近似变换方式估计LiNGAM模型会导致局部最优问题或者独立性不可靠问题,特别是当干扰变量越接近高斯分布时,越难区分变量之间的因果关系。所以提出一种简单直接的量化标准具有一定的研究价值和意义。
技术实现思路
针对现有技术的不足,本专利技术提供一种基于峭度的因果网络推断方法,从而能够稳定、快速的识别因果网络。本专利技术的技术方案为:一种基于峭度的因果网络推断方法,通过基于峭度选择外生变量、逐层找出因果次序和利用最小二乘法剪边检验剪边三个过程,其特征在于,包括以下步骤:1)、设置观察数据集X=[x1,x2,…xn],其中每个变量xi(i=1,2,...n)包含p个样本数据,设置因果次序集合K为空集合;2)、计算每个变量xi(i=1,2,...n)的峭度值ki(i=1,2,...n),找出最大峭度值maxki所对应的变量xm,那么变量xm即为外生变量,其计算式为:其中,E(xi4)为变量xi四阶中心距,(E(xi2))2为xi方差的平方;3)、将其他变量与外生变量xm进行最小二乘回归,得到残差rim,其计算为:根据残差rim得到残差数据集Rm,从而得到更新后的观察数据集X=Rm=(r1m,r2m,...rim);4)、将外生变量xm按照从左至右的顺序加入因果次序数集K中;5)、然后按照步骤2、3、4)迭代地的计算观察数据集X=Rm=(r1m,r2m,...rim)的外生变量,并将该外生变量加入到因果次序数集K中,并通过回归方法计算更新后的观察数据集X=Rm=(r1m,r2m,...rim)的残差和残差数据集,从而得到新的观察数据集;6)、按照步骤5)直至观察数据集中剩下最后一个变量,然后将剩下的最后一个变量加入因果次序数集K中;7)、根据因果次序数集K中的所有变量,对于排在任意变量xj(j=1,2,...n)前面的所有变量进行多元最小二乘回归,找到回归系数等于0或者趋于0时所对应的变量,并剪去该变量到变量xj(j=1,2,...n)的边;8)、重复步骤7),直至因果次序数集K中剩下最后一个变量,输出完整的因果网络。本专利技术的有益效果为:对干扰变量的非高斯性的程度不敏感,稳定性强,特别是当非高斯性很弱时,依然能够保持很高的识别率,复杂度低,只需要对每个变量自身计算峭度,是一种直接的估计方式,因果网络识别正确率高。附图说明图1为本专利技术是结构示意图。具体实施方式下面结合附图对本专利技术的具体实施方式作进一步说明:如图1所示,一种基于峭度的因果网络推断方法,通过基于峭度选择外生变量、逐层找出因果次序和利用最小二乘法剪边三个过程,包括以下步骤:1)、设置观察数据集X=[x1,x2,…xn],其每个变量xi(i=1,2,...n)包含p个样本数据,并设置因果次序集合K为空集合;2)、计算每个变量xi(i=1,2,...n)的峭度值ki(i=1,2,...n),找出最大峭度值maxki所对应的变量xm,变量xm即为外生变量,其计算式为:其中,E(xi4)为变量xi四阶中心距,(E(xi2))2为xi方差的平方;3)、将其余变量与外生变量xm进行最小二乘回归,得到残差rim,其计算为:其中cov(xm,xi)为变量xm和变量xi之间的协方差,var(xm)为变量xm的标准差。根据残差rim得到残差数据集Rm,从而得到更新后的观察数据集X=Rm=(r1m,r2m,...rim);4)、将外生变量xm按照从左至右的顺序加入因果次序数集K中;5)、然后按照步骤2、3、4)迭代地计算新的观察数据集X=Rm=(r1m,r2m,...rim)的外生变量,并将该外生变量加入到因果次序数集K中,并通过回归方法计算更新后的观察数据集X=Rm=(r1m,r2m,...rim)的残差和残差数据集,从而得到新的观察数据集;6)、按照步骤5)直至观察数据集中剩下最后一个变量,然后将剩下的最后一个变量加入因果次序数集K中;7)、根据因果次序数集K中的所有变量,对于排在任意变量xj(j=1,2,...n)前面的所有变量进行多元最小二乘回归,找出回归系数等于0或者趋于0时所对应的变量,并剪去该变量到变量xj(j=1,2,...n)的边;8)、重复步骤7),直至因果次序数集K中剩下最后一个变量,输出完整的因果网络。上述实施例和说明书中描述的只是说明本专利技术的原理和最佳实施例,在不脱离本专利技术精神和范围的前提下,本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内。本文档来自技高网...
一种基于峭度的因果网络推断方法

【技术保护点】
一种基于峭度的因果网络推断方法,通过基于峭度选择外生变量、逐层找出因果次序和利用最小二乘法剪边检验剪边三个过程,其特征在于,包括以下步骤:1)、设置观察数据集X=[x

【技术特征摘要】
1.一种基于峭度的因果网络推断方法,通过基于峭度选择外生变量、逐层找出因果次序和利用最小二乘法剪边检验剪边三个过程,其特征在于,包括以下步骤:1)、设置观察数据集X=[x1,x2,…xn],其中每个变量xi(i=1,2,...n)包含p个样本数据,设置因果次序集合K为空集合;2)、计算每个变量xi(i=1,2,...n)的峭度值ki(i=1,2,...n),找出最大峭度值maxki所对应的变量xm,那么变量xm即为外生变量,其计算式为:其中,E(xi4)为变量xi四阶中心距,(E(xi2))2为xi方差的平方;3)、将其他变量与外生变量xm进行最小二乘回归,得到残差rim,其计算为:

【专利技术属性】
技术研发人员:谢峰郝志峰蔡瑞初温雯陈薇陈炳丰
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1