一种基于噪音独立性的因果网络推断方法技术

技术编号:22884928 阅读:35 留言:0更新日期:2019-12-21 07:39
本发明专利技术涉及数据挖掘技术领域,提出一种基于噪音独立性的因果网络推断方法,包括以下步骤:获取n个变量并构建数据集X,初始化设置因果次序集合K;采用独立成分分析法分解数据集X;计算每个变量x

A causal network inference method based on noise independence

【技术实现步骤摘要】
一种基于噪音独立性的因果网络推断方法
本专利技术涉及数据挖掘
,更具体地,涉及一种基于噪音独立性的因果网络推断方法。
技术介绍
在因果结构的推断工作中,贝叶斯网络(BayesianNetworks,BN)和结构方程模型(StructuralEquationModel,SEM)被广泛应用,然而,针对因果结构的推断工作,在很多情况下,传统的因果推断算法并不能够估计出变量的完整结构,即,传统的因果推断算法只能找到马尔科夫等价类的结构,并不能得到唯一的结构。Shimizu等人提出一种线性非高斯无环模型(LinearNon-GaussianAcyclicModel,LiNGAM),它能够对数据的因果机制进行建模,并利用数据的非高斯性,有效解决上述传统的因果推断算法只能找到马尔科夫等价类结构的问题。针对这类模型的求解框架,主要分为三类:(1)基于独立成分分析法(ICA-LiNGAM)的框架;(2)借助贝叶斯评分方法的Bayes-LiNGAM的框架;(3)借助一对一似然比的DirectLiNGAM框架。然而,这类模型的求解框架仍存在一定的问题,其中,第一类框架与第二类框架利用ICA或者贝叶斯的方法,将原问题转换成一种目标优化问题来解决,但是容易陷入局部最优解,且第一类ICA-LiNGAM的框架通过ICA求解得到连接矩阵,利用连接矩阵的信息进行因果结构的学习,并没有直接利用噪音的信息;而第三类框架一般通过迭代寻找根节点的方式来获取因果次序,因此其需要不断地更新原始数据,导致计算复杂度高。
技术实现思路
r>本专利技术为克服上述现有技术所述的不能直接利用噪音的信息,计算复杂度高的缺陷,提供一种基于噪音独立性的因果网络推断方法。为解决上述技术问题,本专利技术的技术方案如下:一种基于噪音独立性的因果网络推断方法,包括以下步骤:S1:获取n个变量并构建数据集X={x1,x2,...,xn},设置因果次序集合K=φ;S2:采用独立成分分析法分解数据集X,得到X=AE,其中,E={e1,e2,..,en}为n个互相独立的噪音变量集合,A为连接矩阵;S3:计算每个变量xi与每个噪音变量ej的独立性,并存储在矩阵Ind中,其中,i=1,2,...,n,j=1,2,...,n;S4:设置参数λ,计算叶子节点的判定矩阵M;S5:针对每一个变量xi计算其与所有噪音变量ej的非独立性总和mi,并选择最大非独立性总和mi*所对应的节点xi*作为叶子节点;S6:将叶子节点xi*对应的下标i*加入因果次序集合K中,并去除矩阵Ind和判定矩阵M中的第i*行元素及第i*列元素,然后跳转执行S2步骤,至所有的变量xi的下标加入到因果次序集合K中;S7:根据所述因果次序集合K构建因果网络推断图并利用最小二乘法对其进行剪枝,输出所述因果网络推断图。本技术方案中,包括通过噪音估计、叶子节点选择、因果次序确定、利用最小二乘法剪枝四个过程,从而输出基于噪音独立性的因果网络推断图,具体地,本技术方案通过噪音与变量之间的独立性对叶子节点xi*进行选择,通过比较每一变量与每一估计噪音之间的独立性,采用自底向上的发现方法确定因果次序,从而实现更好地利用独立成分分析中噪音的信息,能够充分利用叶子节点的特征。优选地,S2步骤中,估计噪音变量集合E中的噪音变量ej为无序的,即估计噪音变量ei并不一定对应于变量xi。优选地,S3步骤中,变量xi与估计噪音变量ej的独立性计算方法包括基于核的独立性方法、基于熵的独立性衡量方法、基于互信息的独立性衡量方法中的一种或多种。优选地,S4步骤中,参数λ选定设置的公式如下:其中,矩阵Ind中的元素表示变量xi与估计噪音变量ej之间的独立性,具体地,在参数λ选定过程中,先选取矩阵Ind每一行中的最小值,该元素表示与该行所对应的变量独立性最强的估计噪音变量,然后再从所选取的每一行的最小值元素中,选取一个最大值的元素作为参数λ。本优选方案能够有效利用叶子节点的特性,实现在合理的参数设置下,叶子节点与其余所有噪音都相互依赖,即叶子节点包含了所有噪音的信息。优选地,S4步骤中,叶子节点的判定矩阵M的计算步骤如下:判断矩阵Ind中是否存在元素Indi,j大于或等于参数λ,若是,则将判定矩阵中对应的元素Mi,j设置为1,否则为0。优选地,S5步骤中,叶子节点xi*的下标的计算公式如下:优选地,S7步骤中,利用最小二乘法对因果网络推断图进行剪枝的具体步骤如下:对变量xi给定父类变量,并判断是否存在另一个变量xj独立于变量xi,若是,则将变量xi与变量xj之间的边剪去,其中j≠i。与现有技术相比,本专利技术技术方案的有益效果是:根据每一个估计噪音变量与数据集中每一个变量之间的独立性对叶子节点进行选择,能够有效利用叶子节点的特性,实现所选取的叶子节点包含所有噪音的信息;利用独立成分分析中估计噪音的信息,比较每一变量与每一估计噪音之间的独立性,采用自底向上的发现方法确定因果次序,不需要不断地更新原始数据,能够有效降低计算复杂度。附图说明图1为本实施例的一种基于噪音独立性的因果网络推断方法的流程图。图2为本实施例输出的因果次序网络推断示意图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。如图1所示,为本实施例的一种基于噪音独立性的因果网络推断方法的流程图。本实施例提出一种基于噪音独立性的因果网络推断方法,包括以下步骤:S1:获取6个变量并构建数据集X={x1,x2,x3,x4,x5,x6},并初始化设置因果次序集合K为空集,即K=φ。S2:采用独立成分分析法分解数据集X,得到X=AE,其中,E={e1,e2,e3,e4,e5,e6}为6个互相独立的估计噪音变量组成的噪音变量集,A为连接矩阵。本实施例中,估计噪音变量集E中的6个估计噪音变量ej为无序的,即估计噪音变量e1并不一定是变量x1的噪音,其中j=1,2,...,6。S3:计算每个变量xi与每个估计噪音变量ej的独立性,并存储在矩阵Ind中,其中,i=1,2,...,6。本实施例中,采用基于核的独立性方法对每个变量xi与每个估计噪音变量ej的独立性进行衡量计算,并存储在矩阵Ind中,其中,矩阵Ind中的元素Indi,j为第i行第j列的元素,表示变量xi与噪音变量ej的独立性。当Indi,j为0时,表示该变量xi与噪音变量ej互相独立,当Indi,j不为0时,则表示该变量xi与噪音变量ej互相依赖,且Indi,j取值越大,则表示变量xi与噪音变量ej的依赖性越强。此外,本步骤还可以采用基于熵的独立性衡量方法、基于互信息的独立性衡量方法对变本文档来自技高网...

【技术保护点】
1.一种基于噪音独立性的因果网络推断方法,其特征在于,包括以下步骤:/nS1:获取n个变量并构建数据集X={x

【技术特征摘要】
1.一种基于噪音独立性的因果网络推断方法,其特征在于,包括以下步骤:
S1:获取n个变量并构建数据集X={x1,x2,...,xn},设置因果次序集合K=φ;
S2:采用独立成分分析法分解数据集X,得到X=AE,其中,E={e1,e2,..,en}为n个互相独立的估计噪音变量集合,A为连接矩阵;
S3:计算每个变量xi与每个估计噪音变量ej的独立性,并存储在矩阵Ind中,其中,i=1,2,...,n,j=1,2,...,n;
S4:设置参数λ,计算叶子节点的判定矩阵M;
S5:针对每一个变量xi计算其与所有估计噪音变量ej的非独立性总和mi,并选择最大非独立性总和mi*所对应的节点xi*作为叶子节点;
S6:将叶子节点xi*对应的下标i*加入因果次序集合K中,并去除矩阵Ind和判定矩阵M中的第i*行元素及第i*列元素,然后跳转执行S2步骤,至所有的变量xi的下标加入到因果次序集合K中;
S7:根据所述因果次序集合K构建因果网络推断图并利用最小二乘法对其进行剪枝,输出所述因果网络推断图。


2.根据权利要求1所述的因果网络推断方法,其特征在于:所述S2步骤中,所述估计噪音变量集合E中的噪音变量...

【专利技术属性】
技术研发人员:曾艳郝志峰蔡瑞初谢峰黄礼泊陈炳丰
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1