一种生成因果解释模型的训练方法技术

技术编号:37771117 阅读:8 留言:0更新日期:2023-06-06 13:35
本发明专利技术属于基于特定计算模型的机器学习技术领域,具体为一种生成因果解释模型的训练方法,包括构建生成因果解释模型,利用神经网络搭建生成因果解释模型的训练框架,并将生成因果解释模型的可识别性条件作为神经网络的约束条件,采集不同时刻各区域的观测数据,对生成因果解释模型进行训练,本发明专利技术基于生成因果解释模型GCIM的可识别条件,提出了一种基于变分推断的生成因果解释模型学习框架,进一步了提升模型的可解释性,提升整体的泛化能力。提升整体的泛化能力。提升整体的泛化能力。

【技术实现步骤摘要】
一种生成因果解释模型的训练方法


[0001]本专利技术属于基于特定计算模型的机器学习
,尤其是涉及城市复杂系统中时空数据挖掘和预测用模型训练,具体为一种生成因果解释模型的训练方法。

技术介绍

[0002]城市级电力时空数据是城市复杂系统的一种表现形式,反映了城市用电现象的演化规律和动力学过程。城市级复杂系统可以表示为一个复杂图网络,其中空间节点表示为城市中某个区域,节点属性表示为区域随时间演化的可观测时间序列,节点之间的连接表示区域间的相互作用或交互关系。复杂系统在宏观层面上的可观测现象由中观区域间的相互作用涌现而出。但目前大多数方法停滞于研究区域间显式的相关关系,而忽略了影响区域观测生成原理的隐式因果关系,这不利于真实场景的推广和应用。
[0003]因果关系被认为是刻画观测现象生成规则的基本公理,在机器学习的背景下,正确地建模和推断因果变量和因果机制可以诱导出更稳健的特征表示,这有助于解释观测数据的生成原理。因而,采用生成因果解释模型对城市复杂系统(如电力或太阳能系统)进行建模并进而利用其对城市数据(如未来用电量或太阳能)进行预测是一种很好的解决思路。
[0004]然而,为了能使生成因果解释模型对城市复杂系统进行有效预测,需要对构建的模型进行很好的训练和学习,如CN108320026B公开了一种机器学习模型训练方法和装置,包括获取在本轮清洗脏样本数据前已有纯净样本数据;根据已有纯净样本数据和机器学习模型的当前模型参数,确定该模型的损失函数的第一二阶平均梯度;根据本轮从脏样本数据中取部分脏样本数据清洗后得到的纯净样本数据和当前模型参数,确定损失函数的第二二阶平均梯度;根据第一二阶平均梯度和第二二阶平均梯度,获得损失函数的整体二阶平均梯度;根据整体二阶平均梯度调整当前模型参数;若调整后的模型参数不满足训练结束条件,将下一轮作为本轮,返回获取在本轮清洗脏样本数据前已有纯净样本数据的步骤继续训练,直至满足训练结束条件。US11334818B2公开了一种用于实时机器学习的系统和方法,包括接口设备和处理设备,以响应于接收文档,识别与文档相关联的文档对象模型(DOM)树中的令牌,呈现在接口的用户界面上设备,文档,包括标识的标记,标签,基于用户界面上的用户操作,DOM 树中的一个或多个标记,作为强正、强负或弱正或弱之一负标记,并提供包含标记的 DOM 树来训练机器学习模型。
[0005]然而,针对城市复杂系统进行预测的生成因果解释模型有其自身的特点,包括外生变量、时空条件父变量、受控因果转移函数和时空混合函数等构成部分,现有的模型训练方法对生成因果解释模型缺乏针对性,难以其进行有效训练和学习。

技术实现思路

[0006]针对现有技术的问题,本专利技术提供了一种生成因果解释模型的训练方法。
[0007]本专利技术完整的技术方案包括:一种生成因果解释模型的训练方法,包括如下步骤:
步骤(1)构建生成因果解释模型,所述生成因果解释模型具体为:式中,表示时刻各区域的观测数据,表示时刻各区域的因果描述子集合,所述因果描述子为采用神经网络进行生成因果解释模型学习过程的因果隐变量;为时空混合函数;为中的元素,表示第i个区域内在第时刻的第个因果描述子;为受控因果转移函数,表示所对应的外生变量,为受控因果转移函数的条件参数;是在特征维度上参数无关的多层感知机函数,表示对具有直接因果效应的时空条件父变量;为域信息集合的元素,表示第i个区域属于第r个域,表示影响下的第i个区域内k个外生变量的分布;步骤(2)利用神经网络搭建生成因果解释模型的训练框架,并将生成因果解释模型的可识别性条件作为神经网络的约束条件,采集不同时刻各区域的观测数据,对生成因果解释模型进行训练,所述训练过程至少包括对时空混合函数和受控因果转换函数进行拟合。
[0008]进一步的,所述可识别性条件包括观测等价性,所述观测等价性为令所有时刻各区域的观测数据是通过真实的潜在时空因果机制生成的可观测时空序列变量,所述真实的潜在时空因果机制包括真实的时空混合函数、真实的受控因果转移函数、真实的条件参数和真实的外生变量,并通过观测数据学习得到估计模型,所述估计模型包括估计的时空混合函数、估计的受控因果转移函数、估计的条件参数和估计的外生变量;并使估计模型得到的数据分布和真实的数据分布处处相匹配。
[0009]进一步的,所述可识别性条件包括:真实的时空混合函数和估计的时空混合函数之间可以通过置换操作和逐分量可逆转换相互变换。
[0010]进一步的,所述可识别性条件包括:时空混合函数可逆且处处可微,受控因果转移函数可逆且二次可微。
[0011]进一步的,所述可识别性条件包括:外生变量分布的变化受域信息集合的控制,给定域信息集合后,外生变量之间相互独立。
[0012]进一步的,所述可识别性条件包括:所述域信息的数量为2K+1,K为因果描述子数
量。
[0013]进一步的,所述步骤(2)具体包括:步骤2.1:使用变分自动编码器框架来建模因果描述子的推断过程和观测数据的生成过程。GraphGRU被用作编码器和解码器,以同时处理空间和时间维度,编码器用以拟合时空混合函数,从观测数据中利用编码器推断因果描述子的后验分布,该后验分布是一个各向同性的高斯分布,编码器输出该高斯分布的均值和方差。编码器用以逼近时空混合函数的逆函数,以重参数化的方式从后验分布中采样估计的因果描述子和时空混合函数,并使用解码器从估计的因果描述子中生成各节点的重构数据。
[0014]步骤2.2:采用域适配器来从观测数据中捕获潜在的域信息,并使用Gumbel Softmax方法来确保每个节点的观测仅属于某个域。并在域信息集合的基础上确定外生变量分布。
[0015]步骤2.3:采用条件生成模块(CGM)捕捉时空因果结构。所述条件生成模块将时空因果结构分解为区域内因果关系和区域间因果关系,并使用可学习的参数矩阵对区域内因果关系和区域间因果关系进行建模。
[0016]通过将时空因果结构得到的父变量转化为因果转移函数的条件参数,是在特征维度上参数无关的多层感知机函数。
[0017]步骤2.4:采用因果解释模块,因果解释模块基于因果转换函数对因果描述子的先验分布进行建模,本专利技术使用可逆的神经样条流网络来拟合因果转换函数。
[0018]步骤2.5:设域信息在短时间内不发生变化,因此可以从外生变量分布中采样当前区域下一时刻的外生变量,其次利用条件生成模块CGM,根据前一时刻因果描述子的时空条件父变量生成受控因果转移函数的条件参数;然后利用因果解释模块CIM,在条件参数的影响下将外生变量映射到当前区域下一时刻的因果描述子;最后利用变分自编码器中的解码器,对因果描述子进行非线性混合,生成当前区域下一时刻的时空数据。
[0019]进一步的,还包括步骤(3):利用训练好的生成因果解释模型,根据城市不同区域内各子区域历史的用电量,预测每个区域的下一时段用电量。
[0020]本专利技术相对于现有技术的优点在于:(1)本专利技术利用神经网络搭建生成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成因果解释模型的训练方法,其特征在于,包括如下步骤:步骤(1)构建生成因果解释模型,所述生成因果解释模型具体为:式中,表示时刻各区域的观测数据,表示时刻各区域的因果描述子集合,所述因果描述子为采用神经网络进行生成因果解释模型学习过程的因果隐变量;为时空混合函数;为中的元素,表示第i个区域内在第时刻的第个因果描述子;为受控因果转移函数,表示所对应的外生变量,为受控因果转移函数的条件参数;是在特征维度上参数无关的多层感知机函数,表示对具有直接因果效应的时空条件父变量;为域信息集合的元素,表示第i个区域属于第r个域,表示在影响下的第i个区域内的k个的外生变量分布;步骤(2)利用神经网络搭建生成因果解释模型的训练框架,并将生成因果解释模型的可识别性条件作为神经网络的约束条件,采集不同时刻各区域的观测数据,对生成因果解释模型进行训练,所述训练过程至少包括对时空混合函数和受控因果转换函数进行拟合。2.根据权利要求1所述的一种生成因果解释模型的训练方法,其特征在于,所述可识别性条件包括观测等价性,所述观测等价性为令所有时刻各区域的观测数据是通过真实的潜在时空因果机制生成的可观测时空序列变量,所述真实的潜在时空因果机制包括真实的时空混合函数、真实的受控...

【专利技术属性】
技术研发人员:邓攀赵宇闫洁刘俊廷汪慕澜
申请(专利权)人:北京市西城区科学技术和信息化局北京市西城区大数据管理局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1