一种快速且适用于高维网络的因果骨架构建方法技术

技术编号:14299025 阅读:46 留言:0更新日期:2016-12-26 04:21
本发明专利技术实施例公开了一种快速且适用于高维网络的因果骨架构建方法,包括基于最大相关性和最小冗余度的父亲特征选择方法、基于条件独立性测试的因果关系剔除及方向推断方法。采用本发明专利技术,在进行条件独立性测试的时候,约简了条件集的规模,使得算法能够快速地找到相应的条件独立性测试,一方面提高算法运行速度,另一方面在条件独立性测试过程中,非父亲节点对算法准确率并没有影响。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,尤其涉及一种快速且适用于高维网络的因果骨架构建方法
技术介绍
因果网络是不确定性推断的一种重要工具,因果网络结构学习是机器学习的研究热点之一。对于可观察数据集来说,因果网络可以有效地描述事物之间的因果关系,而不仅仅是事物之间的关联。在因果网络的推断问题上,由数据节点集构建因果网络结构,再通过节点之间的关系推断出因果网络图。不过,传统的方法用在高维数据中,其运算时间复杂度偏高,严重影响了算法的推广。传统的因果网络推断方法一般分两大类,基于估计马尔可夫等价类的贝叶斯网络结构学习算法和基于加性噪声模型(Additive noise model,ANM)或信息几何的因果方向推断算法。其中,贝叶斯网络结构学习算法主要有两种,即基于评分-搜索的结构学习和基于依赖分析的结构学习,都无法识别数据集中存在的马尔可夫等价类,如X->Z->Y与X<-Z<-Y这2种结构。然而,高维网络结构常常存在于马尔可夫等价类中,无法准确推断因果关系。贝叶斯网络结构学习算法采用穷举法搜索达到精准解,但是随着网络结构维度增长,其时间复杂度呈指数增长,很难使用于超过较大的(如超过100维)网络。基于估计马尔可夫等价类的贝叶斯网络结构学习算法只能用于因果结构无向图的环境,而无法准确完成模型的方向推断。基于加性噪声模型或信息几何的因果方向推断算法能够从数据结点集中构建出有效的因果网络。Shimizu等人提出了一种基于线性加噪声模型的因果推断算法(Linear non-Gaussian acyclic model,LINGAM),此方法对因果网络结构方向推断有一定的效果。在非线性领域,Hoyer等人提出了一种适用于连续数据的基于非线性的ANM。此后Peters等人把ANM推广到离散数据。区别于ANM,Janzing等人提出基于信息熵的因果推断算法(Information-geometric causal inference,IGCI),该方法能够控制阈值,其推断效果高于其余的因果推断算法。此类算法的极限只能处理低维数据,当维度N>7时,ANM的因果推断能力明显变差。由此可知,以上因果推断方法无法适应高维度的情况,然而真实世界的数据常常是高维数据。总结两类因果推断方法的特点,叶斯网络结构学习算法能够解决高维的因果无向图学习模型;ANM算法和IGCI算法可以对马尔可夫等价类进行方向辨别。实际上,在高维网络的数据集中,在集合中任取1点作为目标节点,往往只有少数相邻节点与其相连。直观地,如果存在1个结点集对目标节点呈现强依赖性,则该结点集与目标结点存在因果关系的机率就很高。类似地,在特征选择方法里,最大相关性和最小冗余度(Max-relevance and Min-redundancy,mRMR)规则常被作为目标节点寻找强依赖性节点集的1个重要准则。由于mRMR只能做2维计算,在实验过程中表现出良好的可靠性和鲁棒性。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种快速且适用于高维网络的因果骨架构建方法。可利用最大相关性和最小冗余度的特征选择方法对两个测试节点间的因果特征集进行筛选,从而大大降低算法复杂度。为了解决上述技术问题,本专利技术实施例提供了一种快速且适用于高维网络的因果骨架构建方法,包括基于最大相关性和最小冗余度的父亲特征选择方法、基于条件独立性测试的因果关系剔除及方向推断方法;所述基于最大相关性和最小冗余度的父亲特征选择方法包括以下步骤:步骤S11,输入关于因果关系无向图G的n维数据集X={x1,x2,…,xn本文档来自技高网
...
一种快速且适用于高维网络的因果骨架构建方法

【技术保护点】
一种快速且适用于高维网络的因果骨架构建方法,其特征在于,包括基于最大相关性和最小冗余度的父亲特征选择方法、基于条件独立性测试的因果关系剔除及方向推断方法;所述基于最大相关性和最小冗余度的父亲特征选择方法包括以下步骤:步骤S11,输入关于因果关系无向图G的n维数据集X={x1,x2,…,xn},并初始化y的候选父亲节点集Sy={};步骤S12,找出X中与y有最大相关性的节点xk,Sy=Sy∪xk;步骤S13,根据最大依赖性、最小冗余度原则,通过Sy′=argmaxxi∈X\Sk-1[I(y;xi)-1k-1Σxj∈Sk-1I(xi;xj)]]]>求出后面的特征父亲节点,并按顺序加入候选父亲节点集Sy,其中y为目标变量,Sy′为候选特征集,任意变量xi,xj属于Sy′,I是互信息;步骤S14,给定1个值m,直接取S中的前m个作为y的候选父亲节点,设定m=n(1/2)+1;步骤S15,以x为目标节点,重复步骤S11‑S14求出x的候选父亲节点集Sx;步骤S16,通过S11‑S15得到的Sx与Sy,则x,y候选父亲节点的并集Sx,y=Sx∪Sy;所述基于条件独立性测试的因果关系剔除及方向推断方法包括以下步骤:步骤S21,对n维数据集X中任意1个节点xi,设xi=y,初始化y的因果节点集PA(y)={};步骤S22,求出y的父亲节点,在剩下的X\xj的n‑1节点中,遍历式选取任意节点xj;步骤S23,通过条件独立性测试,如果存在任意节点集S,S属于Sx,y使得xi┴y|S,则xi不是y的因果节点,选取X\xj,xi重复步骤S22‑S24,如果不存在这样的S,则xi是y的因果节点,将xi加入PA(y);步骤S24,重复步骤S21‑S24直到X中每一个节点都找到其因果节点集,则得到1个完整的因果网络骨架。...

【技术特征摘要】
1.一种快速且适用于高维网络的因果骨架构建方法,其特征在于,包括基于最大相关性和最小冗余度的父亲特征选择方法、基于条件独立性测试的因果关系剔除及方...

【专利技术属性】
技术研发人员:洪英汉郭才林浩岳陈洪财
申请(专利权)人:韩山师范学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1