一种基于因果分割的递归式因果推断方法技术

技术编号：20724781 阅读：38 留言：0更新日期：2019-03-30 17:40

本发明专利技术属于数据挖掘技术领域，具体为一种基于因果分割的递归式因果推断方法。本发明专利技术方法采取分治策略，递归式地利用低阶条件独立性测试将数据集进行层层因果分割，然后再对每一个子数据集进行因果重构，最后合并得到数据集的整体因果信息。该方法能够很好的在高维数据集上进行因果推断，因果关系挖掘。在大数据时代背景下，因果关系推断算法在经济学领域、互联网社交网络领域、医疗大数据领域等都得到了广泛的应用，但高维数据问题是在行业信息智能化遇到的普遍性问题，解决该领域的相关问题迫在眉睫。本发明专利技术有助于解决如何应对日益增长的海量数据因果信息挖掘问题，对抽取海量数据中宝贵的因果信息有着重要作用。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于因果分割的递归式因果推断方法
本专利技术属于数据挖掘
，具体涉及一种适用于生物信息、金融网络、社交网络建模的因果网络构建方法。
技术介绍
大数据时代的到来，因果关系推断算法技术在经济学领域、互联网社交网络领域、医疗大数据领域等都得到了广泛的应用。随着日益增长的海量数据以及数据结构高维复杂化趋势，处理高维数据的因果关系推断问题受到国内外专家学者的极大关注。高维数据问题是在行业信息智能化遇到的普遍性问题，解决该领域的相关问题迫在眉睫，已经成为机器学习领域的研究热点问题。最近，一些研究利用数据间联合分布对称于网络结构的特点对高维数据进行因果建模，这些研究基于三种不同网络构造方法，包括：（1）基于约束的因果推断算法；（2）基于评分搜索的因果推断算法；（3）基于因果函数模型的因果推断算法。这些方法已经在生物基因调控网络、股票预测、社交网络等领域展现了一定的经济应用价值。但是，这些方法的准确率受限于数据集的规模，当数据集中变量规模较大（约100~200），由于高阶条件独立性（CI）测试准确率较低与时间复杂度过高的原因，这些方法无法对数据间蕴含的因果关系做出较为准确的判断，从而导致对整个因果系统的挖掘或调控失效。
技术实现思路
本专利技术的目的在于针对挖掘高维数据集的因果信息，提出一种算法准确率高、计算复杂度低的基于因果分割的递归式因果推断方法。本专利技术提供的基于因果分割的递归式因果推断方法，是一种高效地采取递归式策略的挖掘方法，其核心在于因果分割步骤，该步骤采用的是基于低阶CI测试，因此能够极大的提高挖掘准确率与速度，有助于对高维数据集进行可行、有效因果推...

【技术保护点】
1.一种基于因果分割的递归式因果推断方法，其特征在于，包括以下四个基本步骤：（1）数据的因果分割，是基于数据间的联合分布与内在蕴含的因果网络对称的特性，对数据进行因果分割，其中：（1a）因果分割采取低阶的CI测试，阶数≤3；（1b）因果分割递归式进行；（2）子数据集的因果骨架构建，是基于CI测试对子数据集进行因果骨架建模，要求子数据集的联合分布对称于该子网络的因果骨架；（3）子数据集的合并，是基于点与点对应重合的方法将所有子数据集合并归一；（4）数据集的方向推断，在因果分割建模与子数据集的因果骨架建模阶段采取的是CI测试，根据CI测试的结果，利用网络的V结构特性与条件独立性测试对应的特性，对数据集进行方向推断。

【技术特征摘要】
1.一种基于因果分割的递归式因果推断方法，其特征在于，包括以下四个基本步骤：（1）数据的因果分割，是基于数据间的联合分布与内在蕴含的因果网络对称的特性，对数据进行因果分割，其中：（1a）因果分割采取低阶的CI测试，阶数≤3；（1b）因果分割递归式进行；（2）子数据集的因果骨架构建，是基于CI测试对子数据集进行因果骨架建模，要求子数据集的联合分布对称于该子网络的因果骨架；（3）子数据集的合并，是基于点与点对应重合的方法将所有子数据集合并归一；（4）数据集的方向推断，在因果分割建模与子数据集的因果骨架建模阶段采取的是CI测试，根据CI测试的结果，利用网络的V结构特性与条件独立性测试对应的特性，对数据集进行方向推断。2.根据权利要求1所述的基于因果分割的递归式因果推断方法，其特征在于，假设数据集中每一个变量匹配对应一个n维因果网络中的一个节点，变量一共有n个，依照分治策略与因果分割原理，构建网络；具体操作步骤如下：步骤1：首先构造0阶条件独立性表M，M为一个n×n阶邻接矩阵，其中，每一个元素Mij=1，意味着节点vi与节点vj统计独立；Mij=0意味着节...

【专利技术属性】
技术研发人员：周水庚，张浩，关佶红，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人