当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于因果分割的递归式因果推断方法技术

技术编号:20724781 阅读:38 留言:0更新日期:2019-03-30 17:40
本发明专利技术属于数据挖掘技术领域,具体为一种基于因果分割的递归式因果推断方法。本发明专利技术方法采取分治策略,递归式地利用低阶条件独立性测试将数据集进行层层因果分割,然后再对每一个子数据集进行因果重构,最后合并得到数据集的整体因果信息。该方法能够很好的在高维数据集上进行因果推断,因果关系挖掘。在大数据时代背景下,因果关系推断算法在经济学领域、互联网社交网络领域、医疗大数据领域等都得到了广泛的应用,但高维数据问题是在行业信息智能化遇到的普遍性问题,解决该领域的相关问题迫在眉睫。本发明专利技术有助于解决如何应对日益增长的海量数据因果信息挖掘问题,对抽取海量数据中宝贵的因果信息有着重要作用。

【技术实现步骤摘要】
一种基于因果分割的递归式因果推断方法
本专利技术属于数据挖掘
,具体涉及一种适用于生物信息、金融网络、社交网络建模的因果网络构建方法。
技术介绍
大数据时代的到来,因果关系推断算法技术在经济学领域、互联网社交网络领域、医疗大数据领域等都得到了广泛的应用。随着日益增长的海量数据以及数据结构高维复杂化趋势,处理高维数据的因果关系推断问题受到国内外专家学者的极大关注。高维数据问题是在行业信息智能化遇到的普遍性问题,解决该领域的相关问题迫在眉睫,已经成为机器学习领域的研究热点问题。最近,一些研究利用数据间联合分布对称于网络结构的特点对高维数据进行因果建模,这些研究基于三种不同网络构造方法,包括:(1)基于约束的因果推断算法;(2)基于评分搜索的因果推断算法;(3)基于因果函数模型的因果推断算法。这些方法已经在生物基因调控网络、股票预测、社交网络等领域展现了一定的经济应用价值。但是,这些方法的准确率受限于数据集的规模,当数据集中变量规模较大(约100~200),由于高阶条件独立性(CI)测试准确率较低与时间复杂度过高的原因,这些方法无法对数据间蕴含的因果关系做出较为准确的判断,从而导致对整个因果系统的挖掘或调控失效。
技术实现思路
本专利技术的目的在于针对挖掘高维数据集的因果信息,提出一种算法准确率高、计算复杂度低的基于因果分割的递归式因果推断方法。本专利技术提供的基于因果分割的递归式因果推断方法,是一种高效地采取递归式策略的挖掘方法,其核心在于因果分割步骤,该步骤采用的是基于低阶CI测试,因此能够极大的提高挖掘准确率与速度,有助于对高维数据集进行可行、有效因果推断。本专利技术提供的基于因果分割的递归式因果推断方法,基本步骤为:(1)数据的因果分割建模,主要是基于数据间的联合分布与内在蕴含的因果网络对称的特性,对数据进行因果分割,其具有如下特征:(1a)因果分割采取的是低阶的CI测试(阶数≤3);(1b)因果分割是递归式进行的;(2)子数据集的因果骨架建模,主要是基于CI测试对子数据集进行因果骨架建模,其要求子数据集的联合分布需要对称于该子网络的因果骨架;(3)子数据集的合并建模,主要是基于点与点对应重合的方法将所有子数据集合并归一;(4)数据集的方向推断建模,在因果分割建模与子数据集的因果骨架建模阶段采取的是CI测试,根据CI测试的结果利用网络的V结构特性与条件独立性测试对应的特性,对数据集进行方向推断建模。本专利技术的一个显著特点是采取了基于低阶的条件独立性的分治策略,这在之前从来没有明确地被提出过的。另一方面,本专利技术结合了数据的因果分割、子数据集的因果骨架构建、子数据集的合并对数据的整体因果骨架进行建模,并在合并后进行全局的因果方向学习。本专利技术方法是通用的适用于挖掘高维数据集间蕴含的因果信息,但实验表明,本专利技术能够对低、中、高维的生物医学、时间序列、智能调控网络等相关数据集进行比现有经典方法更有效的因果推断,有助于对应如何挖掘大数据时代的信息价值问题。本专利技术提供的基于因果分割的递归式因果推断方法,假设数据集中每一个变量(一共有n个)匹配对应一个n维因果网络中的一个节点,依照分治策略与因果分割原理,构建网络;具体操作步骤如下:步骤1:首先构造0阶条件独立性表M,M为一个n×n阶邻接矩阵,其中,每一个元素Mij=1,意味着节点vi与节点vj统计独立;Mij=0意味着节点vi与节点vj统计不独立;M中的元素可以由现有的独立性测试方法计算得到;步骤2:将变量集V分割成三个不重叠的子集{A,B,C=V\(A,B)},依据是,有Mij=1;依据上一步M的计算方法,直观地,可以理解为A与B之间的所有可能路径都被C或C的子集阻塞或中断;然后,构造两个子数据集和;步骤3:如果步骤2无法将V分割,则构造1阶条件独立性表,替换原来的0阶条件独立性表M,然后重复步骤2;若再次失败,则构造更高阶的条件独立性表,直到步骤2顺利完成;在极端情况下,如全连接图无法进行步骤2的分割,则返回结果,告知该图无法分割;步骤4:得到V1与V2后,分别以V1、V2为子数据集,重复步骤以上1-3步骤;根据这个递归式划分数据集的过程,最后可以得到k个子数据集;步骤5:对于步骤4中得到的k个子数据集的每一个进行因果骨架学习,利用现有的基于约束的因果推断算法(如PC算法)进行学习,得到每一个子结构的因果骨架,并将所有子因果骨架合并;由于子数据集往往要比原始数据集小得多,因此在这种情况下,步骤5得到的全局因果骨架要比其他算法要高效且准确得多;步骤6:检测上述5个步骤中使用条件独立性测试得到的结果,通过CI与V结构的一一对应原理,推断因果骨架中节点与节点之间的因果方向,最终得到完整的数据集对应的因果网络结构。本专利技术有三个显著的创新点:(1)因果推断算法是递归式学习的,相比其他方法,可以极大的降低算法的计算复杂度;(2)因果推断算法采用的是低阶(阶数3)的CI测试,相比其他方法采取的是高阶(阶数变量数-2)CI测试,本专利技术可以很大提高算法的准确率;(3)由于具有前面两个特点,奔放没可以对较高维数据集进行因果建模,其时间复杂度往往只有经典算法的百分之一到千分之一,而且在准确率上也有较明显的提升,从而一定程度上克服了现有方法往往无法对高维数据集进行可行、有效因果推断的困难。附图说明图1中子图(a)至子图(h)分别是PCCP与PCSADA在Asia、Sachs、Alarm、Barley、Hailfinder、Win95pts、Andes和Pigs这8个数据集下的准确率,分别用召回率Recall、精确率Precision和F1来评价这两个方法的性能。图2为PCCP与PCSADA在8个数据集下不同样本规模下的的时间复杂度表现,由于PCCP远快于PCSADA,为了提高可视化的可读性,将运行时间t进行log化展示。其中,子图(a)是Asia数据集与Sachs数据集下的运行时间,子图(b)是Alarm数据集与Barley数据集下的运行时间,(c)是Hailfinder数据集与Win95pts数据集下的运行时间,(d)是Andes数据集与Pigs数据集下的运行时间。表1为实验所用到的8个数据集统计特性快照,包括节点个数、平均度数、最大入度数。具体实施方式本专利技术采集的网络结构来自于经典的因果网络结构数据集,可以从UCI机器学习数据集库http://archive.ics.uci.edu/ml/index.php和经典方法SADA(R.Cai,etal.Sada:Ageneralframeworktosupportrobustcausationdiscovery.ICML.2013.)下载。其中包括8个因果网络,涉及到各个领域,有因果推断(Asia)、蛋白质信号网络(Sachs)、药物学(Alarm)、农作物(Barley)、智能教学系统(Andes)和遗传图谱(Pigs)。表1展示了这8个数据集对应的因果网络的统计特性,包括节点个数、平均度数、最大入度数,这三个特点一般被认为可以很大程度代表着一个因果网络的复杂程度,所以可以很好地评价一个方法。我们用CP(CausalPartition)来指代我们的因果推断方法,在本实验中与经典方法SADA进行对比,SADA应该为目前学习高维因果推断网本文档来自技高网...

【技术保护点】
1.一种基于因果分割的递归式因果推断方法,其特征在于,包括以下四个基本步骤:(1)数据的因果分割,是基于数据间的联合分布与内在蕴含的因果网络对称的特性,对数据进行因果分割,其中:(1a)因果分割采取低阶的CI测试,阶数≤3;(1b)因果分割递归式进行;(2)子数据集的因果骨架构建,是基于CI测试对子数据集进行因果骨架建模,要求子数据集的联合分布对称于该子网络的因果骨架;(3)子数据集的合并,是基于点与点对应重合的方法将所有子数据集合并归一;(4)数据集的方向推断,在因果分割建模与子数据集的因果骨架建模阶段采取的是CI测试,根据CI测试的结果,利用网络的V结构特性与条件独立性测试对应的特性,对数据集进行方向推断。

【技术特征摘要】
1.一种基于因果分割的递归式因果推断方法,其特征在于,包括以下四个基本步骤:(1)数据的因果分割,是基于数据间的联合分布与内在蕴含的因果网络对称的特性,对数据进行因果分割,其中:(1a)因果分割采取低阶的CI测试,阶数≤3;(1b)因果分割递归式进行;(2)子数据集的因果骨架构建,是基于CI测试对子数据集进行因果骨架建模,要求子数据集的联合分布对称于该子网络的因果骨架;(3)子数据集的合并,是基于点与点对应重合的方法将所有子数据集合并归一;(4)数据集的方向推断,在因果分割建模与子数据集的因果骨架建模阶段采取的是CI测试,根据CI测试的结果,利用网络的V结构特性与条件独立性测试对应的特性,对数据集进行方向推断。2.根据权利要求1所述的基于因果分割的递归式因果推断方法,其特征在于,假设数据集中每一个变量匹配对应一个n维因果网络中的一个节点,变量一共有n个,依照分治策略与因果分割原理,构建网络;具体操作步骤如下:步骤1:首先构造0阶条件独立性表M,M为一个n×n阶邻接矩阵,其中,每一个元素Mij=1,意味着节点vi与节点vj统计独立;Mij=0意味着节...

【专利技术属性】
技术研发人员:周水庚张浩关佶红
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1