一种基于线性变量组的因果发现方法技术

技术编号：23025438 阅读：15 留言：0更新日期：2020-01-03 17:03

本发明专利技术提出一种基于线性变量组的因果发现方法，包括以下步骤：获取包含n个变量组的数据集，初始化设置因果次序集合；采用线性核函数，依次计算每个变量组的核矩阵，然后对核矩阵进行中心化处理；建立误差最小化的目标函数，通过交叉验证方法为变量组与数据集中其他的变量组学习参数；计算变量组与数据集中其他的变量组的残差核矩阵；估计每个变量组与数据集中其他的变量组的似然比；计算每个变量组的总似然比，然后选择最高总似然比所对应的变量组作为外生变量组；根据外生变量组更新数据集；将外生变量组对应的下标加入因果次序集合中，重复执行上述步骤，至所有的变量组下标都加入因果次序集合中；构建因果网络推断图进行输出。

A causal discovery method based on linear variable group

全部详细技术资料下载

【技术实现步骤摘要】
一种基于线性变量组的因果发现方法
本专利技术涉及数据挖掘
，更具体地，涉及一种基于线性变量组的因果发现方法。
技术介绍
因果结构的学习是机器学习领域与统计学等领域中最受到学者关注的研究热点之一，其重点问题之一旨在解决因果关系的发现问题。目前，在数据挖掘背后隐藏的产生机制，以及发现标量变量之间的因果关系的问题上，已有相关的研究发现。然而，在现实生活中，存在非标量的数据，而传统因果发现方法无法处理该类型数据。例如，在研究变量X＝“一个人的身体健康状况”与变量Y＝“一个人的富有程度”之间的因果关系时，不同的研究变量由不同的指标共同决定的，即存在多维的指标，例如变量X的指标包括人的血压、人的血糖、人的肥胖程度等，这类的数据被称为“变量组”(GroupsofVariables)。目前，针对变量组的因果关系主要集中在如何将多维的变量组整合成一个统一的统计量。例如，通过对变量组里的多维变量求均值，代替该变量组进行因果关系的探索。此外，DorisEntner提出了针对变量组单一变量与另一变量组单一变量的一对一的处理方法，再通过求取均值的方式整合变量组里所有变量得出来的结果。UlrichSchaechtle等人通过引入张量分析，将多维的变量组变换成一维的数据，其中多维这一性质可以从变量组内的时序性上体现。ZhidongBai等应用多元格兰杰因果来研究两个变量组的因果关系。然而，这些工作或者在整合变量时，容易造成数据的信息丢失，进而影响全局因果网络结构的推断准确率；或者只能发现成对变量组之间的因果关系，难以将其扩展到多个变...

【技术保护点】
1.一种基于线性变量组的因果发现方法，其特征在于，包括以下步骤：/nS1：获取包含n个变量组的数据集X＝{x

【技术特征摘要】
1.一种基于线性变量组的因果发现方法，其特征在于，包括以下步骤：
S1：获取包含n个变量组的数据集X＝{x1,x2,...,xn}，设置因果次序集合L＝φ；
S2：采用线性核函数，依次计算每个变量组xi的核矩阵Ki，然后对核矩阵Ki进行中心化处理，其中i＝1,2,...,n；
S3：建立误差最小化的目标函数，通过交叉验证方法依次为每个变量组xi与数据集X中其他的变量组xj学习参数λij，其中j≠i；
S4：根据所述参数λij，通过核的脊回归方法依次计算每个变量组xi与数据集X中其他的变量组xj的残差核矩阵Rij；
S5：根据所述核矩阵Ki和残差核矩阵Rij，通过最大熵估计方法，依次估计每个变量组xi与数据集X中其他的变量组xj的似然比Mi,j；
S6：根据所述似然比Mi,j，依次计算每个变量组xi的总似然比mi，然后选择最高总似然比所对应的变量组xi*作为外生变量组；
S7：根据所述外生变量组xi*更新数据集X；
S8：将所述外生变量组xi*对应的下标i*加入因果次序集合L中，重复执行S3～S8步骤，直至所有的变量组下标都加入因果次序集合L中；
S9：根据所述因果次序集合L构建网络结构图，将网络结构图中存在独立性或条件独立性的变量组xi和变量组xj之间的边剪去，输出得到变量组之间的因果网络推断图。

2.根据权利要求1所述的基于线性变量组的因果发现方法，其特征在于：所述S2步骤中，所述线性核函数为无参数的核函数。

3.根据权利要求1所述的基于线性变量组的因果发现方法，其特征在于：所述S3步骤中，所述误差最小化的目标函数的公式如下：

其中，E表示预测均方的误差，表示与第k个验证样本的预测误差，k＝1,2,...,c，c为验证样本的数量，包含参数λij。

4...

【专利技术属性】
技术研发人员：曾艳，郝志峰，蔡瑞初，谢峰，黄礼泊，陈炳丰，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人