一种基于确定性机制与噪声干扰的离散数据因果发现方法技术

技术编号:19057074 阅读:32 留言:0更新日期:2018-09-29 12:13
本发明专利技术公开了一种基于确定性机制与噪声干扰的离散数据因果发现方法,包括以下步骤:S1、预设模型X→Y′→Y,定义确定性因果过程;S2、定义得到用于评估模型X→Y'→Y的初始评分标准;S3、计算出用于评估模型的最终评分标准;S4、根据最终评分标准所给出的评分,使用贪婪策略估计Y'的状态,得到模型M1:X→Y'→Y;S5、根据最终评分标准所给出的评分,使用贪婪策略估计反方向的X'的状态,得到模型M2:Y→X'→X;S6、根据比较M1,M2的评分S1,S2的大小,并输出因果方向。本发明专利技术通过引入确定性与噪声干扰两部分,使之灵活适应数据中不同的确定性机制和噪声机制,增加抗干扰性,增大了其适用范围,克服了现有技术中离散因果发现效率低下的缺陷,达到提高因果发现效率的目的。

【技术实现步骤摘要】
一种基于确定性机制与噪声干扰的离散数据因果发现方法
本专利技术涉及数据挖掘
,更具体地说,涉及一种基于确定性机制与噪声干扰的离散数据因果发现方法。
技术介绍
随着社会进步和科技发展,人们需要认识的事物变得越来越复杂,系统内部的因果关系是客观存在的,因果发现就是从数据中挖掘其蕴含的因果关系,从而帮助人们认识事物间的客观规律。在最近的研究中,基于加性噪声模型的因果发现被推广到了离散数据上,通过X与噪声N的独立性这一不对称性进行方向识别:Y=f(X)+N,X⊥N;一个值得讨论的问题是,在离散数据中,因果机制是否满足以上使用加法运算的模型。一方面,有人认为基于离散数据的加性噪声模型可以通过考虑有一个随机的f映射,从而可以将离散加性噪声模型扩展为混合模型。而另一方面,有人认为在离散的数据中,可以通过判断P(X)与P(Y|X)的独立性来进行方向识别。然而这些方法,在离散数据中,因果的产生机制未必能满足加性噪声的假设,我们需要寻找一个更为一般的模型来解释离散的因果机制。目前经典的因果发现发放都不能有效克服了更加一般条件下的离散因果发现问题,这些方法的主要局限是:面对离散的数据,大部分存在马尔科夫等价类问题,他们依赖于基于约束的方法,依赖于大量的独立性检验,但两个结点的情况下是无法判断方向的,从而造成因果发现效率低下。
技术实现思路
有鉴于此,本专利技术提供了一种基于确定性机制与噪声干扰的离散数据因果发现方法,克服了现有技术中离散因果发现效率低下的缺陷。一种基于确定性机制与噪声干扰的离散数据因果发现方法,其步骤包括有:S1、预设模型X→Y′→Y,定义确定性因果过程;S2、定义得到用于评估模型X→Y′→Y的初始评分标准;S3、计算得到用于评估模型X→Y′→Y的最终评分标准;S4、根据最终评分标准所给出的评分,使用贪婪策略估计Y′的状态,得到模型M1:X→Y′→Y;S5、根据最终评分标准所给出的评分,使用贪婪策略估计反方向的X′的状态,得到模型M2:Y→X′→X;S6、根据比较M1,M2的评分S1,S2的大小,并输出因果方向。作为本专利技术的优选方案,所述步骤S1的具体过程为:若有两个变量,X,Y,如果X是Y的原因,则我们称,X→Y,其中该因果模型包含了确定性机制与噪声干扰两个部分,第一部分,确定性机制,我们认为因变量X到真实状态下的果变量Y′是一个确定性机制,即可以表示为Y’=f(x),其中f是一个离散的映射函数;第二部分为噪声干扰部分,Y’经过噪声干扰,从而得到观测到的果变量Y,即,该过程可以表示为,X→Y′→Y。作为本专利技术的优选方案,所述步骤S2的具体过程为:给定的一组观察数据该模型X→Y′→Y的用于评估模型的初始评分标准为:该式根据独立性X⊥Y|Y′分解为三个部分;第二个等式的第二项P(Y′=yi′|X=xi)表示了低秩隐变量产生的过程;由于这个过程是确定性的,我们有P(Y′=yi′|X=xi)=1当且仅当Y′=fxi时成立,否则为零,其中函数fxi表示真实映射。作为本专利技术的优选方案,所述步骤S3的具体过程为:设其中分别表示PX,PY|Y′的极大似然解;他们的解可以写为其中和是值X=x和Y′=y′,Y=y在样本中的频数,并且他们满足约束条件∑xax=1且∑yby′,y=1;则用于评估模型的初始评分标准在数据D上最大化的解可以用下式表示,根据BIC评分原理,得到最终用于评估模型的评分标准为,其中d=|X|-1+|X|+|Y′||Y|-1有效参数数量。其中,|X|-1、|X|和|Y′||Y|-1分别是PX、确定性映射fxi,和概率映射PY|Y′的有效参数数量,|X|、|Y′|和|Y|分别表示他们取值的个数。作为本专利技术的优选方案,所述步骤S4的具体过程为:S401、初始化阶段:产生x到y’的最大映射值,y’=f(x),其中,x的映射值为y,y’为x的全部映射值y的集合中出现次数最多的映射值;S402、贪婪搜索阶段:根据用于评估模型的最终评分标准,对于每一个x,对其映射值f(x)进行一次更改操作,该操作每次只改变一个x对应的映射值,然后记录下更改后的评分,并恢复回初始状态;如此类推,更换将所有x对应的映射值都更换一遍,计算并记录这些更换操作后的评分;S403、选择得分最高的更换操作作为下一轮迭代的初始值;S404、重复步骤S402和S403,直到得分不再提升为止,从而得到模型M1。作为本专利技术的优选方案,所述步骤S5的具体过程为:S501、初始化阶段:产生y到x’的映射,x’=f(y),其中,y的映射值为x,x’为y的全部映射值x的集合中出现次数最多的映射值;S502、贪婪搜索阶段:根据用于评估模型的最终评分标准,对于每一个y,对其映射值f(y)进行一次更改操作,该操作每次只改变一个y对应的映射值,然后记录下更改后的评分,并恢复回初始状态;如此类推,更换将所有y对应的映射值都更换一遍,计算并记录这些更换操作后的评分;S503、选择得分最高的更换操作作为下一轮迭代的初始值;S504、重复步骤S502和S503,直到得分不再提升为止,从而得到模型M2。作为本专利技术的优选方案,所述步骤S6的具体过程为:根据用于评估模型的最终评分标准,分别算出模型M1相对应的分数S1以及模型M2相对应的分数S2;然后判断S1和S2的相对值,若S1>S2则认为X导致Y并输出X→Y,若S1<S2,则认为Y导致X并输出Y→X,若S1=S2,则输出无法判断方向。从上述的技术方案可以看出,本专利技术的有益效果为:由于本专利技术通过引入确定性与噪声干扰两部分,克服了现有技术中因需要对因变量X和噪声N进行独立性建模而造成使用范围窄小的缺陷,使得本专利技术可以灵活适应数据中不同的确定性机制,还可以灵活适应数据中不同的噪声机制,以及适用于有序和无序的离散变量,同时克服了传统加性噪声模型对于无序离散数据点识别困难的问题,增加抗干扰性,增大了其适用范围;此外,本专利技术通过最终评分标准,使得两变量可以快速判断出相对应的因果关系,克服了现有技术中离散因果发现效率低下的缺陷,达到提高因果发现效率的目的。附图说明图1为本专利技术实施例提供的一种基于确定性机制与噪声干扰的离散数据因果发现方法的步骤流程图。图2为图1步骤S4获取模型M1的具体步骤流程图。图3为图1步骤S4获取模型M2的具体步骤流程图。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所述的附图作简单地介绍,显而易见,下面的描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。具体实施方式本专利技术实施例提供了一种基于确定性机制与噪声干扰的离散数据因果发现方法。如图1-3所示,一种基于确定性机制与噪声干扰的离散数据因果发现方法,其步骤包括有:S1、预设模型X→Y′→Y,定义确定性因果过程;若有两个变量,X,Y,如果X是Y的原因,则我们称,X→Y,其中该因果模型包含了确定性机制与噪声干扰两个部分,第一部分,确定性机制,我们认为因变量X到真实状态下的果变量Y′是一个确定性机制,即可以表示为Y’=f(x),其中f是一个离散的映射函数;第二部分为噪声干扰部分,Y’经过噪声干扰,从而得到观测到的果变量Y,即,该过程可以表示为,X→Y′→Y。本文档来自技高网...

【技术保护点】
1.一种基于确定性机制与噪声干扰的离散数据因果发现方法,其特征在于,该离散数据上基于确定性机制与噪声干扰下的因果发现方法的步骤包括有:S1、预设模型X→Y'→Y,定义确定性因果过程;S2、定义得到用于评估模型X→Y'→Y的初始评分标准;S3、计算得到用于评估模型X→Y'→Y的最终评分标准;S4、根据最终评分标准所给出的评分,使用贪婪策略估计Y′的状态,得到模型M1:X→Y'→Y;S5、根据最终评分标准所给出的评分,使用贪婪策略估计反方向的X'的状态,得到模型M2:Y→X'→X;S6、根据比较M1,M2的评分S1,S2的大小,并输出因果方向。

【技术特征摘要】
1.一种基于确定性机制与噪声干扰的离散数据因果发现方法,其特征在于,该离散数据上基于确定性机制与噪声干扰下的因果发现方法的步骤包括有:S1、预设模型X→Y'→Y,定义确定性因果过程;S2、定义得到用于评估模型X→Y'→Y的初始评分标准;S3、计算得到用于评估模型X→Y'→Y的最终评分标准;S4、根据最终评分标准所给出的评分,使用贪婪策略估计Y′的状态,得到模型M1:X→Y'→Y;S5、根据最终评分标准所给出的评分,使用贪婪策略估计反方向的X'的状态,得到模型M2:Y→X'→X;S6、根据比较M1,M2的评分S1,S2的大小,并输出因果方向。2.如权利要求1所述的一种基于确定性机制与噪声干扰的离散数据因果发现方法,其特征在于,所述步骤S1的具体过程为:若有两个变量,X,Y,如果X是Y的原因,则我们称,X→Y,其中该因果模型包含了确定性机制与噪声干扰两个部分,第一部分,确定性机制,我们认为因变量X到真实状态下的果变量Y′是一个确定性机制,即可以表示为Y’=f(x),其中f是一个离散的映射函数;第二部分为噪声干扰部分,Y’经过噪声干扰,从而得到观测到的果变量Y,即,该过程可以表示为,X→Y′→Y。3.如权利要求1所述的一种基于确定性机制与噪声干扰的离散数据因果发现方法,其特征在于,所述步骤S2的具体过程为:给定的一组观察数据该模型X→Y′→Y的用于评估模型的初始评分标准为:该式根据独立性X⊥Y|Y'分解为三个部分;第二个等式的第二项P(Y'=yi'|X=xi)表示了低秩隐变量产生的过程;由于这个过程是确定性的,我们有P(Y'=yi'|X=xi)=1当且仅当Y'=fxi时成立,否则为零,其中函数fxi表示真实映射。4.如权利要求3所述的一种基于确定性机制与噪声干扰的离散数据因果发现方法,其特征在于,所述步骤S3的具体过程为:设其中分别表示PX,PY|Y'的极大似然解;他们的解可以写为其中和是值X=x和Y'=y',Y=y在样本中的频数,并且他们满足约束条件∑χax=1且∑yby',y=1;则用于评估模型的初始评分标准在数据D上最大化的解可以用下式表示,根据BIC评分原理,得到最终用于评估模型的评分标准为,其中d=|...

【专利技术属性】
技术研发人员:乔杰蔡瑞初郝志峰温雯王丽娟陈炳丰
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1