一种应用于缺失数据的因果推断方法、系统、设备及终端技术方案

技术编号:40476627 阅读:30 留言:0更新日期:2024-02-26 19:12
本发明专利技术属于信息技术服务技术领域,公开了一种应用于缺失数据的因果推断方法、系统、设备及终端,首先通过WGAN架构对存在缺失项的数据条目进行迭代的补全,将补全的结果输入进自动编码器的编码器,经由定义在算法里的结构方程模型对补全数据的处理,编码器和解码器分别对潜在空间进行编码解码,解码器用作WGAN结构的生成器,同时添加一个判别器用以和生成器互相欺骗,使生成的数据与原始样本分布相近,输出一个有向无环图,代表缺失数据之间的因果关系。本发明专利技术提供的基于神经网络的缺失数据补全方法比目前基于统计的补全方法准确性更高,算法复杂度更低,同时在因果推断部分采用的WGAN架构可以有效地避免模型崩塌,增强算法的鲁棒性。

【技术实现步骤摘要】

本专利技术属于信息技术服务,尤其涉及一种应用于缺失数据的因果推断方法、系统、设备及终端


技术介绍

1、在大数据时代,数据爆炸式的增长,数据获取变得更容易的同时数据缺失现象也更加普遍。推断数据间存在的因果关系是很多科学领域中的一个基础问题,而相关的应用已经推广在许多领域。因果发现的目的是从数据中找到正确的因果结构,也可以理解为在数据中发现一个能够正确的表达因果关系的有向无环图(dag)。然而面对海量待分析的数据,数据缺失的现象在现实中无法避免,给因果发现带来了挑战。在现实生活中,数据缺失的现象非常普遍,在社会调查中,有些人可能不愿意回答一些敏感或隐私的问题,比如收入、年龄、婚姻状况等,导致相关的数据缺失;在医疗健康领域,有些患者可能没有按时进行检查或治疗,或者在治疗过程中出现了并发症或死亡,导致相关数据缺失;在教育领域,有些学生可能因为各种原因缺课、退学或转学,导致相关的数据缺失;在电子商务领域,有些用户可能没有填写完整的个人信息或购买记录,或者在浏览商品时没有留下足迹,导致相关的数据缺失。在许多实际场景中,数据往往是不完整的,在数据分析中数据缺失可能会导本文档来自技高网...

【技术保护点】

1.一种应用于缺失数据的因果推断方法,其特征在于,首先通过WGAN架构对存在缺失项的数据条目进行迭代的补全,将补全的结果输入进自动编码器的编码器,经由定义在算法里的结构方程模型对补全数据的处理,编码器和解码器分别对潜在空间进行编码解码,解码器用作WGAN结构的生成器,同时添加一个判别器用以和生成器互相欺骗,使生成的数据与原始样本分布相近,输出一个有向无环图,代表缺失数据之间的因果关系。

2.如权利要求1所述的应用于缺失数据的因果推断方法,其特征在于,应用于缺失数据的因果推断方法包括:

3.如权利要求2所述的应用于缺失数据的因果推断方法,其特征在于,在步骤一中,用作...

【技术特征摘要】

1.一种应用于缺失数据的因果推断方法,其特征在于,首先通过wgan架构对存在缺失项的数据条目进行迭代的补全,将补全的结果输入进自动编码器的编码器,经由定义在算法里的结构方程模型对补全数据的处理,编码器和解码器分别对潜在空间进行编码解码,解码器用作wgan结构的生成器,同时添加一个判别器用以和生成器互相欺骗,使生成的数据与原始样本分布相近,输出一个有向无环图,代表缺失数据之间的因果关系。

2.如权利要求1所述的应用于缺失数据的因果推断方法,其特征在于,应用于缺失数据的因果推断方法包括:

3.如权利要求2所述的应用于缺失数据的因果推断方法,其特征在于,在步骤一中,用作缺失数据补全的过程中,根据含有缺失的数据x~,二元掩码矩阵m∈{0,1}d和随机噪音矩阵z,三类数据同时输入进生成器中,经由wgan中的生成器生成补全后的数据矩阵x-,判别器的作用则是判断生成器所生成的矩阵是真值或假值,目的是使得生成对抗网络所生成的补全值与原始观测数据更为相似。

4.如权利要求2所述的应用于缺失数据的因果推断方法,其特征在于,在步骤二中,根据基于wasserstein距离的wgan架构,将自动编码器与判别器结合,自动编码器中的编码器用来读取在步骤一已经被补全的缺失数据,生成补全数据的潜在表示,自动编码器中的解码器被当作生成式对抗网络架构中的生成器,结合定义在算法中的结构因果模型,对数据进行因果结构的建模,重构补全的缺失数据,与判别器相互对抗,让重构的数...

【专利技术属性】
技术研发人员:高焱阳蔡青松
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1