一种基于线性变量组的因果发现方法技术

技术编号:23025438 阅读:15 留言:0更新日期:2020-01-03 17:03
本发明专利技术提出一种基于线性变量组的因果发现方法,包括以下步骤:获取包含n个变量组的数据集,初始化设置因果次序集合;采用线性核函数,依次计算每个变量组的核矩阵,然后对核矩阵进行中心化处理;建立误差最小化的目标函数,通过交叉验证方法为变量组与数据集中其他的变量组学习参数;计算变量组与数据集中其他的变量组的残差核矩阵;估计每个变量组与数据集中其他的变量组的似然比;计算每个变量组的总似然比,然后选择最高总似然比所对应的变量组作为外生变量组;根据外生变量组更新数据集;将外生变量组对应的下标加入因果次序集合中,重复执行上述步骤,至所有的变量组下标都加入因果次序集合中;构建因果网络推断图进行输出。

A causal discovery method based on linear variable group

【技术实现步骤摘要】
一种基于线性变量组的因果发现方法
本专利技术涉及数据挖掘
,更具体地,涉及一种基于线性变量组的因果发现方法。
技术介绍
因果结构的学习是机器学习领域与统计学等领域中最受到学者关注的研究热点之一,其重点问题之一旨在解决因果关系的发现问题。目前,在数据挖掘背后隐藏的产生机制,以及发现标量变量之间的因果关系的问题上,已有相关的研究发现。然而,在现实生活中,存在非标量的数据,而传统因果发现方法无法处理该类型数据。例如,在研究变量X=“一个人的身体健康状况”与变量Y=“一个人的富有程度”之间的因果关系时,不同的研究变量由不同的指标共同决定的,即存在多维的指标,例如变量X的指标包括人的血压、人的血糖、人的肥胖程度等,这类的数据被称为“变量组”(GroupsofVariables)。目前,针对变量组的因果关系主要集中在如何将多维的变量组整合成一个统一的统计量。例如,通过对变量组里的多维变量求均值,代替该变量组进行因果关系的探索。此外,DorisEntner提出了针对变量组单一变量与另一变量组单一变量的一对一的处理方法,再通过求取均值的方式整合变量组里所有变量得出来的结果。UlrichSchaechtle等人通过引入张量分析,将多维的变量组变换成一维的数据,其中多维这一性质可以从变量组内的时序性上体现。ZhidongBai等应用多元格兰杰因果来研究两个变量组的因果关系。然而,这些工作或者在整合变量时,容易造成数据的信息丢失,进而影响全局因果网络结构的推断准确率;或者只能发现成对变量组之间的因果关系,难以将其扩展到多个变量组的因果网络结构上。
技术实现思路
本专利技术为克服上述现有技术所述的因果网络结构的推断准确率较低的缺陷,提供一种基于线性变量组的因果发现方法。为解决上述技术问题,本专利技术的技术方案如下:一种基于线性变量组的因果发现方法,包括以下步骤:S1:获取包含n个变量组的数据集X={x1,x2,...,xn},设置因果次序集合L=φ;S2:采用线性核函数,依次计算每个变量组xi的核矩阵Ki,然后对核矩阵Ki进行中心化处理,其中i=1,2,...,n;S3:建立误差最小化的目标函数,通过交叉验证方法依次为每个变量组xi与数据集X中其他的变量组xj学习参数λij,其中j≠i;S4:根据所述参数λij,通过核的脊回归方法依次计算每个变量组xi与数据集X中其他的变量组xj的残差核矩阵Rij;S5:根据所述核矩阵Ki和残差核矩阵Rij,通过最大熵估计方法,依次估计每个变量组xi与数据集X中其他的变量组xj的似然比Mi,j;S6:根据所述似然比Mi,j,依次计算每个变量组xi的总似然比mi,然后选择最高总似然比所对应的变量组xi*作为外生变量组;S7:根据所述外生变量组xi*更新数据集X;S8:将所述外生变量组xi*对应的下标i*加入因果次序集合L中,重复执行S3~S8步骤,直至所有的变量组下标都加入因果次序集合L中;S9:根据所述因果次序集合L构建网络结构图,将网络结构图中存在独立性或条件独立性的变量组xi和变量组xj之间的边剪去,输出得到变量组之间的因果网络推断图。本技术方案中,包括外生变量组的选择、变量组因果次序的确定、变量组因果方向的剪枝三个过程,从而输出针对变量组的因果网络推断图,具体地,本技术方案从独立性最强的外生变量组出发,通过线性核函数得到各个变量组的核矩阵,通过核的脊回归方法计算每个变量组与其他变量组的残差核矩阵,再通过最大熵估计方法得到的每个变量组与其他变量组的似然比,实现直接衡量变量组与变量组之间的独立性,以及比较变量组整体与整体之间的独立性,对外生变量组进行选择。优选地,S2步骤中,线性核函数采用无参数的核函数,能够在外生变量组的选择以及因果次序的确定上显现明显的优势。优选地,S3步骤中,误差最小化的目标函数的具体公式如下:其中,E表示预测均方的误差,表示与第k个验证样本的预测误差,k=1,2,...,c,c为验证样本的数量,且包含参数λij。优选地,S4步骤中,所述残差核矩阵Rij的计算公式通过核的脊回归公式推导得到,其具体计算公式如下:其中,I为长度为c的单位矩阵;Ki为变量组xi的核矩阵,Kj为变量组xj的核矩阵。优选地,S5步骤中,变量组xi与变量组xj的似然比Mi,j的表达式如下:Mi,j→-H(Ki)-H(Rij)+H(Kj)+H(Rji)其中,H(·)表示多维的差分熵。当似然比Mi,j的取值为正数时,则表示变量组xi指向变量组xj,即表示为xi→xj;当似然比Mi,j的取值为负数时,则表示变量组xj指向变量组xi,即表示为xj→xi;当似然比Mi,j的取值为0时,则表示变量组xi与变量组xj互相独立。优选地,S6步骤中,变量组xi的总似然比mi的计算公式如下:其中所述最高总似然比所对应的下标为i*=argmaxmi。优选地,S7步骤中,数据集X的更新方式如下:Kt′←Ri*t其中,Kt′表示第t个变量组更新数据后的核矩阵,且t=1,2,...,n,t≠i*;Ri*t表示外生变量组xi*与变量组xt的残差核矩阵;该更新方式旨在消除外生变量组xi*对其他变量组xt的影响。优选地,第i个变量组xi中具有ai个变量,其中优选地,S9步骤的具体步骤包括:根据因果次序集合L构建网络结构图,然后在网络结构图中,判断是否存在一个变量使得在给定变量组xi的父类变量组时,变量独立于另一个变量组xj中的所有变量,即当变量组xi与变量组xj存在独立性或条件独立性,则将变量组xi与变量组xj之间的边剪去,然后将完成变量组因果方向的剪枝的因果网络推断图进行输出;其中,1≤p≤ai。与现有技术相比,本专利技术技术方案的有益效果是:通过采用核的计算方式,直接衡量变量组与变量组之间整体的独立性,依次选取外生变量组,从而能够有效减少变量组之间单一变量与单一量进行独立性比较所带来的误差,有效提高输出的因果网络推断图的推断准确率;依次选择外生变量组,并根据外生变量组更新数据集以及确定因果次序,能够有效消除外生变量组对其余变量组的影响,解决无法将变量组之间的因果关系扩展到多个变量组的因果网络结构上的问题。附图说明图1为本实施例的基于线性变量组的因果发现方法的流程图。图2为本实施例的因果网络推断图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。如图1所示,为本实施例的基于线性变量组的因果发现方法的流程图。本实施例提出一种基于线性变量组的因果发现方法,包括以下步骤:步骤1:获取包含n=5个变量组的本文档来自技高网
...

【技术保护点】
1.一种基于线性变量组的因果发现方法,其特征在于,包括以下步骤:/nS1:获取包含n个变量组的数据集X={x

【技术特征摘要】
1.一种基于线性变量组的因果发现方法,其特征在于,包括以下步骤:
S1:获取包含n个变量组的数据集X={x1,x2,...,xn},设置因果次序集合L=φ;
S2:采用线性核函数,依次计算每个变量组xi的核矩阵Ki,然后对核矩阵Ki进行中心化处理,其中i=1,2,...,n;
S3:建立误差最小化的目标函数,通过交叉验证方法依次为每个变量组xi与数据集X中其他的变量组xj学习参数λij,其中j≠i;
S4:根据所述参数λij,通过核的脊回归方法依次计算每个变量组xi与数据集X中其他的变量组xj的残差核矩阵Rij;
S5:根据所述核矩阵Ki和残差核矩阵Rij,通过最大熵估计方法,依次估计每个变量组xi与数据集X中其他的变量组xj的似然比Mi,j;
S6:根据所述似然比Mi,j,依次计算每个变量组xi的总似然比mi,然后选择最高总似然比所对应的变量组xi*作为外生变量组;
S7:根据所述外生变量组xi*更新数据集X;
S8:将所述外生变量组xi*对应的下标i*加入因果次序集合L中,重复执行S3~S8步骤,直至所有的变量组下标都加入因果次序集合L中;
S9:根据所述因果次序集合L构建网络结构图,将网络结构图中存在独立性或条件独立性的变量组xi和变量组xj之间的边剪去,输出得到变量组之间的因果网络推断图。


2.根据权利要求1所述的基于线性变量组的因果发现方法,其特征在于:所述S2步骤中,所述线性核函数为无参数的核函数。


3.根据权利要求1所述的基于线性变量组的因果发现方法,其特征在于:所述S3步骤中,所述误差最小化的目标函数的公式如下:



其中,E表示预测均方的误差,表示与第k个验证样本的预测误差,k=1,2,...,c,c为验证样本的数量,包含参数λij。


4...

【专利技术属性】
技术研发人员:曾艳郝志峰蔡瑞初谢峰黄礼泊陈炳丰
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1