一种基于确定性机制与噪声干扰的离散数据因果发现方法技术

技术编号：19057074 阅读：32 留言：0更新日期：2018-09-29 12:13

本发明专利技术公开了一种基于确定性机制与噪声干扰的离散数据因果发现方法，包括以下步骤：S1、预设模型X→Y′→Y，定义确定性因果过程；S2、定义得到用于评估模型X→Y＇→Y的初始评分标准；S3、计算出用于评估模型的最终评分标准；S4、根据最终评分标准所给出的评分，使用贪婪策略估计Y＇的状态，得到模型M1：X→Y＇→Y；S5、根据最终评分标准所给出的评分，使用贪婪策略估计反方向的X'的状态，得到模型M2：Y→X'→X；S6、根据比较M1，M2的评分S1,S2的大小，并输出因果方向。本发明专利技术通过引入确定性与噪声干扰两部分，使之灵活适应数据中不同的确定性机制和噪声机制，增加抗干扰性，增大了其适用范围，克服了现有技术中离散因果发现效率低下的缺陷，达到提高因果发现效率的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于确定性机制与噪声干扰的离散数据因果发现方法
本专利技术涉及数据挖掘
，更具体地说，涉及一种基于确定性机制与噪声干扰的离散数据因果发现方法。
技术介绍
随着社会进步和科技发展，人们需要认识的事物变得越来越复杂，系统内部的因果关系是客观存在的，因果发现就是从数据中挖掘其蕴含的因果关系，从而帮助人们认识事物间的客观规律。在最近的研究中，基于加性噪声模型的因果发现被推广到了离散数据上，通过X与噪声N的独立性这一不对称性进行方向识别：Y＝f(X)+N，X⊥N；一个值得讨论的问题是，在离散数据中，因果机制是否满足以上使用加法运算的模型。一方面，有人认为基于离散数据的加性噪声模型可以通过考虑有一个随机的f映射，从而可以将离散加性噪声模型扩展为混合模型。而另一方面，有人认为在离散的数据中，可以通过判断P(X)与P(Y|X)的独立性来进行方向识别。然而这些方法，在离散数据中，因果的产生机制未必能满足加性噪声的假设，我们需要寻找一个更为一般的模型来解释离散的因果机制。目前经典的因果发现发放都不能有效克服了更加一般条件下的离散因果发现问题，这些方法的主要局限是：面对离散的数据，大部分存在马尔科夫等价类问题，他们依赖于基于约束的方法，依赖于大量的独立性检验，但两个结点的情况下是无法判断方向的，从而造成因果发现效率低下。
技术实现思路
有鉴于此，本专利技术提供了一种基于确定性机制与噪声干扰的离散数据因果发现方法，克服了现有技术中离散因果发现效率低下的缺陷。一种基于确定性机制与噪声干扰的离散数据因果发现方法，其步骤包括有：S1、预设模型X→Y′→Y，定义确定性因果过程；S2...

【技术保护点】
1.一种基于确定性机制与噪声干扰的离散数据因果发现方法，其特征在于，该离散数据上基于确定性机制与噪声干扰下的因果发现方法的步骤包括有：S1、预设模型X→Y＇→Y，定义确定性因果过程；S2、定义得到用于评估模型X→Y＇→Y的初始评分标准；S3、计算得到用于评估模型X→Y＇→Y的最终评分标准；S4、根据最终评分标准所给出的评分，使用贪婪策略估计Y′的状态，得到模型M1:X→Y＇→Y；S5、根据最终评分标准所给出的评分，使用贪婪策略估计反方向的X'的状态，得到模型M2:Y→X'→X；S6、根据比较M1，M2的评分S1,S2的大小，并输出因果方向。

【技术特征摘要】
1.一种基于确定性机制与噪声干扰的离散数据因果发现方法，其特征在于，该离散数据上基于确定性机制与噪声干扰下的因果发现方法的步骤包括有：S1、预设模型X→Y＇→Y，定义确定性因果过程；S2、定义得到用于评估模型X→Y＇→Y的初始评分标准；S3、计算得到用于评估模型X→Y＇→Y的最终评分标准；S4、根据最终评分标准所给出的评分，使用贪婪策略估计Y′的状态，得到模型M1:X→Y＇→Y；S5、根据最终评分标准所给出的评分，使用贪婪策略估计反方向的X'的状态，得到模型M2:Y→X'→X；S6、根据比较M1，M2的评分S1,S2的大小，并输出因果方向。2.如权利要求1所述的一种基于确定性机制与噪声干扰的离散数据因果发现方法，其特征在于，所述步骤S1的具体过程为：若有两个变量，X，Y，如果X是Y的原因，则我们称，X→Y，其中该因果模型包含了确定性机制与噪声干扰两个部分，第一部分，确定性机制，我们认为因变量X到真实状态下的果变量Y′是一个确定性机制，即可以表示为Y’＝f(x),其中f是一个离散的映射函数；第二部分为噪声干扰部分，Y’经过噪声干扰，从而得到观测到的果变量Y，即，该过程可以表示为，X→Y′→Y。3.如权利要求1所述的一种基于确定性机制与噪声干扰的离散数据因果发现方法，其特征在于，所述步骤S2的具体过程为：给定的一组观察数据该模型X→Y′→Y的用于评估模型的初始评分标准为：该式根据独立性X⊥Y|Y'分解为三个部分；第二个等式的第二项P(Y'＝yi'|X＝xi)表示了低秩隐变量产生的过程；由于这个过程是确定性的，我们有P(Y'＝yi'|X＝xi)＝1当且仅当Y'＝fxi时成立，否则为零，其中函数fxi表示真实映射。4.如权利要求3所述的一种基于确定性机制与噪声干扰的离散数据因果发现方法，其特征在于，所述步骤S3的具体过程为：设其中分别表示PX，PY|Y'的极大似然解；他们的解可以写为其中和是值X＝x和Y'＝y',Y＝y在样本中的频数，并且他们满足约束条件∑χax＝1且∑yby',y＝1；则用于评估模型的初始评分标准在数据D上最大化的解可以用下式表示，根据BIC评分原理，得到最终用于评估模型的评分标准为，其中d＝|...

【专利技术属性】
技术研发人员：乔杰，蔡瑞初，郝志峰，温雯，王丽娟，陈炳丰，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人