【技术实现步骤摘要】
基于神经网络的工具变量生成与反事实推理方法及装置
本专利技术涉及因果推断领域,尤其涉及一种自动的工具变量解耦方法,实现可直接从可观测变量中提取出工具变量的反事实预测方法,从而提升手写数字识别的效率和精度。
技术介绍
因果推断致力于对干预产生的反事实结果进行估计,辅助决策者进行选择,以达到使得结果最优化的目标。因果推断的黄金方法是使用随机控制实验随机分配干预值进行因果推断,但是此类方法的成本过高甚至无法实现。一些方法通过加权、匹配的方式来对影响因果推断的混淆变量进行约束的目的,但是此类方法仅仅只能在混淆完全可观测的情形下使用,当混淆存在不可观测的情况下该类方法仍然存在较大缺陷。工具变量提出用来解决不可观测的混淆问题,它和干预变量相关同时和结果变量条件独立。当下的基于工具变量的因果推断方法都需要一个预先定义的工具变量,但是这在现实情况下往往并不实用。如何直接从所有可观测变量中解耦出工具变量,并自动地进行因果推断是一个亟待解决的问题。手写数字识别作为因果推断的一个典型应用领域,其存在同样的技术问题。针对手写数字的识 ...
【技术保护点】
1.一种基于神经网络的工具变量生成与反事实推理方法,其特征在于,包括如下步骤:/nS1:获取手写数字图片数据作为干预,获取手写数字图片的标签数据作为结果,将手写数字图片和标签构建成反事实预测数据集;/nS2:使用互信息约束的方法,对工具变量和其他协变量的表征设置约束,用于进行初步的表征学习;/nS3:基于两阶段反事实预测技术设置额外约束,用于对初步学习到的解耦表征进一步优化;/nS4:基于所述的反事实预测数据集,通过交替优化S2和S3中设置的约束,获得优化后的工具变量和其他协变量的表征模型;/nS5:针对待识别的手写数字图片,利用优化后的表征模型,得到工具变量和其他协变量的 ...
【技术特征摘要】
1.一种基于神经网络的工具变量生成与反事实推理方法,其特征在于,包括如下步骤:
S1:获取手写数字图片数据作为干预,获取手写数字图片的标签数据作为结果,将手写数字图片和标签构建成反事实预测数据集;
S2:使用互信息约束的方法,对工具变量和其他协变量的表征设置约束,用于进行初步的表征学习;
S3:基于两阶段反事实预测技术设置额外约束,用于对初步学习到的解耦表征进一步优化;
S4:基于所述的反事实预测数据集,通过交替优化S2和S3中设置的约束,获得优化后的工具变量和其他协变量的表征模型;
S5:针对待识别的手写数字图片,利用优化后的表征模型,得到工具变量和其他协变量的表征,并将其应用于基于工具变量的反事实预测模型中,输出手写数字图片中手写数字的识别结果。
2.如权利要求1所述的基于神经网络的工具变量生成与反事实推理方法,其特征在于,步骤S1中,所述反事实预测数据集表示为其中vi,xi,yi分别为第i个样本的可观测变量、干预和结果,其中样本的可观测变量以该样本对应的手写数字图片本身代替,N为样本总数。
3.如权利要求2所述的基于神经网络的工具变量生成与反事实推理方法,其特征在于,所述的步骤S2具体包括以下子步骤:
S201:基于神经网络构建以可观测变量V为输入以工具变量Z为输出的第一表征模型φZ(.),同时基于神经网络构建以可观测变量V为输入以其他协变量C为输出的第二表征模型φC(.);
S202:基于神经网络构建以工具变量Z为输入以干预变量X为输出的第一约束网络fZX(.),设定第一约束网络的损失函数为:
其中:为第一约束网络fZX(·)中以φZ(vi)为输入去预测xi时得到的变分分布;φZ(vi)为第一表征模型φZ(·)中输入vi时得到的输出结果;log表示对数似然函数;
另外,针对第一约束网络设定互信息最大化损失函数为:
S203:基于神经网络构建以工具变量Z为输入以结果变量Y为输出的第二约束网络fZY(·),设定第二约束网络的损失函数为:
其中:为第二约束网络fZY(·)中以φZ(vi)为输入去预测yi时得到的变分分布;
另外,针对第二约束网络设定互信息最大化损失函数为:
其中:ωij为由第i个样本的干预xi和第j个样本的干预xj之间距离决定的权重;
S204:基于神经网络构建以其他协变量C为输入以干预变量X为输出的第三约束网络fCX(·),设定第三约束网络的损失函数为:
其中:为第三约束网络fCX(·)中以φC(vi)为输入去预测xi时得到的变分分布;φC(vi)表示第二表征模型φC(·)中输入vi时得到的输出结果;
另外,针对第三约束网络设定互信息最大化损失函数为:
S205:基于神经网络构建以其他协变量C为输入以结果变量Y为输出的第四约束网络fCY(·),设定第四约束网络的损失函数为:
其中:为第四约束网络fCY(·)中以φC(vi)为输入去预测yi时得到的变分分布;
另外,针对第四约束网络设定互信息最大化损失函数为:
S206:基于神经网络构建以工具变量Z为输入以其他协变量C为输出的第五约束网络fZC(·),设定第五约束网络的损失函数为:
其中:为第五约束网络fZC(·)中以φZ(vi)为输入去预测φC(vi)时得到的变分分布;
另外,针对第五约束网络设定互信息最大化损失函数为...
【专利技术属性】
技术研发人员:况琨,袁俊坤,吴飞,林兰芬,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。