用于训练因果模型的方法和设备技术

技术编号:19122785 阅读:20 留言:0更新日期:2018-10-10 05:32
本公开的实施例涉及用于训练因果模型的方法、设备和计算机可读存储介质。例如,一种用于训练因果模型的方法包括:基于多个观测变量和至少一个隐变量来建立因果模型,该因果模型包括待确定的第一参数和第二参数,第一参数指示多个观测变量之间的第一关系,第二参数指示至少一个隐变量与多个观测变量之间的第二关系;通过采用概率主成分分析,确定第二参数和与第一参数相关联的第三参数;基于第二参数和第三参数,确定因果模型的噪声;以及基于噪声,确定第一参数。本公开的实施例还提供了能够实现上述方法的设备和计算机可读存储介质。

【技术实现步骤摘要】
用于训练因果模型的方法和设备
本公开的实施例涉及机器学习领域,并且更具体地,涉及用于训练因果模型的方法、设备和计算机可读存储介质。
技术介绍
随着信息技术的飞速发展,数据规模的增长十分迅速。在这样的背景和趋势下,机器学习受到越来越广泛的关注。其中,因果发现(诸如线性因果关系发现、线性隐变量因果关系发现等)在现实生活中具有广泛的应用,例如在供应链、医疗健康和零售等领域。然而,由于隐变量的存在以及隐变量对于观测变量的未知的作用,求解包含隐变量的线性因果关系是因果发现中重要而困难的挑战。一些传统方案可以采用过完全独立成分分析的方法,通过枚举隐变量和观测变量之间所有可能的分类来找到可能的因果结构。然而,这类方案仅能够针对变量较少的因果发现,其时间效率低并且易受内存消耗的影响。另一些传统方案假设隐变量和观测变量之间为非线性关系,其通过使用非变分高斯过程隐变量模型来获得隐变量和噪声,进而针对非高斯噪声采用独立成分分析以获得因果结构。然而,由于这类方法采用尺度共轭梯度方法进行参数估计,其对于线性因果关系而言并非高效,并且不能够针对高斯噪声来确定因果结构。
技术实现思路
下面给出了对各实施例的简要概述,以提供对各种实施例的一些方面的基本理解。注意,
技术实现思路
部分并非旨在标识关键元素的要点或描述各种实施例的范围。其唯一目的在于以简化形式呈现一些概念,作为对后述更具体描述的前序。在本公开的第一方面,提供一种用于训练因果模型的方法。该方法包括:基于多个观测变量和至少一个隐变量来建立因果模型,该因果模型包括待确定的第一参数和第二参数,第一参数指示多个观测变量之间的第一关系,第二参数指示至少一个隐变量与多个观测变量之间的第二关系;通过采用概率主成分分析,确定第二参数和与第一参数相关联的第三参数;基于第二参数和第三参数,确定因果模型的噪声;以及基于噪声,确定第一参数。本公开的第二方面,提供一种用于训练因果模型的设备。该设备包括:处理器,以及存储器,该存储器存储有指令,该指令在被处理器执行时使该设备:基于多个观测变量和至少一个隐变量来建立因果模型,该因果模型包括待确定的第一参数和第二参数,第一参数指示多个观测变量之间的第一关系,第二参数指示至少一个隐变量与多个观测变量之间的第二关系;通过采用概率主成分分析,确定第二参数和与第一参数相关联的第三参数;基于第二参数和第三参数,确定因果模型的噪声;以及基于噪声,确定第一参数。本公开的第三方面,提供一种计算机可读存储介质。该计算机可读存储介质具有存储在其上的计算机可读程序指令,该计算机可读程序指令用于执行根据本公开的第一方面所述的方法。通过下文描述将会理解,本公开的实施例能够高效地求解包含隐变量的线性因果模型,并且同时支持高斯噪声和非高斯噪声两种情况。此外,本公开的实施例具有较高的时间效率和较低的内存消耗。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。附图说明从下文的公开内容和权利要求中,本专利技术的目的、优点和其他特征将变得更加明显。这里仅出于示例的目的,参考附图来给出优选实施例的非限制性描述,在附图中:图1示出了根据本公开的实施例的用于训练因果模型的架构100的框图;图2示出了根据本公开的实施例的用于训练因果模型的方法200的流程图;图3示出了根据本公开的实施例的用于确定第二参数和第三参数的方法300的流程图;图4示出了根据本公开的实施例的用于训练因果模型的装置400的框图;以及图5示出了可以用来实施本公开的实施例的示例设备500的示意性框图。在各个附图中,相同或对应的标号表示相同或对应的部分。具体实施方式在以下描述中,出于说明的目的而阐述许多细节。然而,本领域普通技术人员将认识到可以在不使用这些具体细节的情况下实现本专利技术。因此,本专利技术不旨在于受限于所示实施例、而是将被赋予与本文描述的原理和特征一致的最宽的范围。应当理解,术语“第一”、“第二”等仅被用来将一个元素与另一个元素区分开来。而实际上第一元素也能够被称为第二元素,反之亦然。另外还应当理解“包括”,“包含”仅被用来说明所陈述的特征、元素、功能或者部件的存在,然而并不排除存在一个或者多个其他的特征、元素、功能或者部件。在本公开的实施例中,术语“模型”一般是指针对参照某种系统的特征,采用数学语言概括地或近似地表述出的该系统的关系结构。模型一般可以通过利用已知数据进行训练来生成。生成的模型可以包括模型结构和模型参数等等。模型参数可以根据具体模型的类型不同而不同。术语“因果模型”(causalmodel)一般是指描述系统的因果关系结构(在下文中,也称为“因果结构”)的模型。例如,在线性因果模型中,变量之间的关系可以由线性函数来描述,分配给每个变量的值可以是其直接原因与使得系统不确定的“干扰”或“误差”项的加权和。术语“观测变量”一般是指能够被直接观测到的变量,而术语“隐变量”(latentvariable)则一般表示不能被直接观测到、而需要通过样本数据推导得出的变量。术语“隐变量模型”一般是指将一组变量(例如,观测变量)与一组隐变量相关联的模型,其目的是找到有助于理解数据的结构的低维潜在流形。在实际生活中,有时期望确定多个观测变量之间的关系。以零售领域的具体场景为例,例如,为了提高雨伞销量,期望确定影响雨伞销量的因素以及这些因素与雨伞销量的关系。为了求解这一问题,可以针对多个观测变量建立因果模型,多个观测变量例如可以包括雨伞销量、冰淇淋销量等等。然而,通常存在能够同时作用于多个观测变量的隐变量。当不知道这样的隐变量时,可能得到多个观测变量之间的错误的因果关系。例如,天气既可能影响到雨伞销量也可能影响到冰淇淋销量。如果不知道天气这个变量,则可能得到“冰淇淋销量影响雨伞销量”这一错误的因果关系,从而可能导致错误的销售策略被制定(例如,通过减少冰淇淋销量来提高雨伞的销量)。如之前所描述的,一些传统方案可以采用过完全独立成分分析的方法,通过枚举隐变量和观测变量之间所有可能的分类来找到可能的因果结构。然而,这类方案仅能够用于变量较少的因果发现,其时间效率低并且易受内存消耗的影响。另一些传统方案假设隐变量和观测变量之间为非线性关系,其通过使用非变分高斯过程隐变量模型来获得隐变量和噪声,进而针对非高斯噪声采用独立成分分析以获得因果结构。然而,由于这类方法采用尺度共轭梯度方法进行参数估计,其对于线性因果关系而言并非高效,并且不能够针对高斯噪声来确定因果结构。为了解决上述问题以及其他潜在问题中的一个或者多个,根据本公开的实施例,提出了一种用于训练因果模型的方案。该方案从线性隐变量模型出发,采用概率主成分分析(ProbabilityPrincipleComponentAnalysis,PPCA)方法来获得隐变量和噪声,并且将该噪声用于因果结构发现。因此,本公开的实施例能够在具有较高的时间效率和较低的内存消耗的情况下高效地求解包含隐变量的线性因果模型,并且同时支持高斯噪声和非高斯噪声两种情况。以下将结合上述关于雨伞销量的场景来详细描述本公开的各实施例。应当理解,这仅仅是出于说明的目的,不旨在以任何方式限制本专利技术的范围。图1示出了根据本公开的实施例的用于本文档来自技高网
...
用于训练因果模型的方法和设备

【技术保护点】
1.一种用于训练因果模型的方法,包括:基于多个观测变量和至少一个隐变量来建立因果模型,所述因果模型包括待确定的第一参数和第二参数,所述第一参数指示所述多个观测变量之间的第一关系,所述第二参数指示所述至少一个隐变量与所述多个观测变量之间的第二关系;通过采用概率主成分分析,确定所述第二参数和与所述第一参数相关联的第三参数;基于所述第二参数和所述第三参数,确定所述因果模型的噪声;以及基于所述噪声,确定所述第一参数。

【技术特征摘要】
1.一种用于训练因果模型的方法,包括:基于多个观测变量和至少一个隐变量来建立因果模型,所述因果模型包括待确定的第一参数和第二参数,所述第一参数指示所述多个观测变量之间的第一关系,所述第二参数指示所述至少一个隐变量与所述多个观测变量之间的第二关系;通过采用概率主成分分析,确定所述第二参数和与所述第一参数相关联的第三参数;基于所述第二参数和所述第三参数,确定所述因果模型的噪声;以及基于所述噪声,确定所述第一参数。2.根据权利要求1所述的方法,其中所述第一关系和所述第二关系中的至少一个为线性关系。3.根据权利要求1所述的方法,其中确定所述第二参数和所述第三参数包括:通过采用概率主成分分析,获得所述因果模型的目标函数;以及至少基于所述目标函数,确定所述第二参数和所述第三参数的值。4.根据权利要求3所述的方法,其中确定所述第二参数和所述第三参数的值包括:随机初始化所述第二参数和所述第三参数。5.根据权利要求3所述的方法,其中确定所述第二参数和所述第三参数的值还包括:迭代执行以下操作至少一次,直至收敛条件被满足:基于所述第二参数和所述第三参数的当前值,确定所述至少一个隐变量的至少一个属性;以及基于所述至少一个属性,更新所述第二参数和所述第三参数的所述当前值。6.根据权利要求5所述的方法,其中所述至少一个属性包括所述至少一个隐变量的均值和方差。7.根据权利要求5所述的方法,其中所述收敛条件包括所述目标函数的变化量低于预定阈值。8.根据权利要求1所述的方法,其中确定所述第一参数包括:基于所述噪声,利用不含隐变量的因果学习算法来确定所述第一参数。9.根据权利要求1所述的方法,其中确定所述第一参数还包括:确定所述噪声是否服从高斯分布;响应于确定所述噪声服从高斯分布,利用基于高斯分布的因果学习算法来确定所述第一参数;以及响应于确定所述噪声不服从高斯分布,利用基于非高斯分布的因果学习算法来确定所述第一参数。10.一种用于训练因果模型的设备,包括:处理器;以及存储器,所述存储器存储有指令,所述指令在被所述处理器执行时使所述设备:基于多个观测变量和至少一个隐变量来建立因果模型,所述因果模型包括待确定的第一参数和第二参数,所述第一参数指示所述多个观测变量之间...

【专利技术属性】
技术研发人员:卫文娟刘春辰冯璐
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1