当前位置: 首页 > 专利查询>奥多比公司专利>正文

用于估计终止事件可能性的系统技术方案

技术编号:37126391 阅读:18 留言:0更新日期:2023-04-06 21:25
本公开的实施例涉及用于估计终止事件可能性的系统。在用于估计终止事件可能性的系统的实现中,计算设备实现终止系统以接收描述处理度量的值和终止事件的指示的观察数据。使用混合模型将处理度量的值分组成组,该混合模型将处理度量表示为分布的混合。估计针对组中的每个组的分布的参数,并且还估计针对组中的每个组的混合比例。响应于接收到请求针对处理度量的特定值的终止事件的可能性的估计的用户输入,终止系统基于针对组中的每个组的特定值处的分布密度和在组中的每个组中包括特定值的概率来生成针对特定值的终止事件的可能性的估计的指示。的估计的指示。的估计的指示。

【技术实现步骤摘要】
用于估计终止事件可能性的系统

技术介绍

[0001]“维度灾难”是计算设备所面对的重大挑战,其阻止计算设备的处理系统准确地处理描述相对较大的值的数目或维度的输入数据。这些处理不准确性在由计算设备输出的结果中是间接可观察到的,这些结果也是不准确的。因为很多实际应用涉及高基数输入数据,所以经常可观察到由该技术挑战造成的不准确结果。在一个这样的示例中,如果处理度量(treatment metric)具有大于阈值数目的若干个值,则计算设备不可能准确地计算处理度量对结果的因果效应的估计。这是因为,值中的一些具有非常低的出现概率,并且由计算设备的处理系统使用这些值而计算的条件概率是不准确的。
[0002]为了在面对描述大于阈值的若干个值的处理度量数据时克服这样的准确性限制,计算设备将处理度量的值聚类成小于阈值的若干个箱(bin)。例如,计算设备的处理系统被实现以将10,000个值聚类成10个箱,使得10,000个值中的每个被包括在10个箱中的一个中。然后,计算设备将值的箱处理为输入数据,以计算因果效应的估计(例如,10个估计,而不是10,000个)。然而,一旦计算设备已将处理度量的值聚类成箱,常规的系统就不能准确地计算对箱中包括的任何特定值的结果的因果效应。相反,常规的计算系统仅限于准确计算对值的每个箱的结果的一个因果效应,这是这些系统的缺点。

技术实现思路

[0003]描述了用以改进计算设备的操作的技术和系统,使得即使当这些值的数目足够大以使用常规的系统引起“维度灾难”时,也可以对由输入数据描述的所有值进行准确计算。在示例中,计算设备实现了终止系统以接收描述处理度量的值、协变量度量的值和终止事件的指示的观察数据。计算设备的处理系统使用混合模型将处理度量的值分组成组,该混合模型将处理度量表示为分布的混合。
[0004]例如,计算设备的处理系统使用期望最大化算法来计算针对组中的每个组的分布的参数和混合比例。终止系统在没有用户干预的情况下自动形成有向无环图,有向无环图具有针对处理度量的节点、针对协变量度量的节点和针对终止事件的节点。在一个示例中,终止系统接收用户输入,该用户输入请求针对处理度量的特定值的终止事件的可能性的估计。
[0005]响应于接收到用户输入,终止系统实现处理系统以使用有向无环图和针对组中的每个组的分布的所估计的参数来计算针对组中的每个组的特定值处的分布密度。处理系统还使用有向无环图和针对组中的每个组的所估计的混合比例来计算在组中的每个组中包括特定值的概率。终止系统基于针对组中的每个组的特定值处的分布密度和在组中的每个组中包括特定值的概率来生成终止事件的可能性的估计的指示以用于在用户界面中显示。
[0006]本“
技术实现思路
”以简化的形式介绍了部分概念,下面在具体实施方式中进一步描述这些概念。如此,本“
技术实现思路
”无意于标识所要求保护的主题的必要特征,也无意于在确定所要求保护的主题的范围时被用作辅助。
附图说明
[0007]参考附图来描述具体实施方式。图中所表示的实体表示一个或多个实体,并因此在讨论中可互换地参考实体的单数或复数形式。
[0008]图1是可操作以采用如本文中所描述的用于估计终止事件可能性的数字系统和技术的示例实现中的环境的图示;
[0009]图2描绘了示出了用于估计终止事件可能性的终止模块的操作的示例实现中的系统;
[0010]图3A和图3B示出了预处理观察数据的示例;
[0011]图4描绘了示出了用于估计分布参数和混合比例的估计模块的操作的示例实现中的系统;
[0012]图5示出了所估计的分布和混合比例的表示;
[0013]图6A、图6B、图6C和图6D示出了估计终止事件可能性的示例;
[0014]图7是描绘示例实现中的过程的流程图,其中接收请求针对处理度量的值中的特定值的终止事件的可能性的估计的用户输入并且生成针对特定值的终止事件的可能性的估计的指示以用于在用户界面中显示;
[0015]图8示出了在合成数据集上验证用于估计终止事件可能性的系统的示例;以及
[0016]图9示出了包括示例计算设备的示例系统,该示例计算设备表示用于实现本文中所描述的各种技术的一个或多个计算系统和/或设备。
具体实施方式
[0017]概述
[0018]由于“维度灾难”,计算设备的处理系统在输入数据描述相对大量的值或维度的场景中不能准确地处理输入数据。在示例中,如果处理度量具有大于阈值数目的若干个值,则维度灾难阻止计算设备准确地计算处理度量对结果的因果效应的估计。为了克服这一点,计算设备的处理器系统将处理度量的值聚类成小于阈值数目的若干个箱。计算设备然后实现处理器系统以估计值的箱的因果效应,例如,使用因果发现算法。
[0019]通过估计值的箱而不是值的因果效应,计算设备减少了由输入数据描述的值的维度或数目以避免维度灾难。然而,一旦处理度量的原始值被聚类成箱,计算设备就不可能准确地估计原始值的因果效应。相反,常规的系统的计算设备仅限于准确估计每个箱的单个因果效应。这是常规的系统和技术的缺点。
[0020]为了克服常规的系统的限制,从而可以准确地估计由高基数输入数据描述的每个处理度量值的因果效应,描述了用于估计终止事件可能性的技术和系统。在示例中,计算设备实现终止系统以接收描述处理度量的值、协变量度量的值和终止事件的指示的观察数据。例如,终止系统确定处理度量的值的数目大于阈值数目k。响应于该确定,终止系统实现计算设备的处理器系统以使用混合模型将处理度量的值分组成组,使得组的数目小于阈值数目k。
[0021]混合模型将处理度量表示为分布的混合。终止系统不像在常规的系统中仅使用值的组来避免“维度灾难”,而是使用期望最大化算法来估计针对组中的每个组的分布的混合中的分布的参数。终止系统还使用期望最大化算法来估计针对组中的每个组的混合比例。
针对组中的每个组的所估计的分布参数和混合比例可用于估计包括在组中的每个组中的处理度量的值中的每个值的终止事件可能性。
[0022]为此,在一个示例中,终止系统使用因果发现算法和处理度量值的组在没有用户干预的情况下自动形成有向无环图。例如,终止系统使用快速贪心等价搜索算法来形成有向无环图。有向无环图包括针对处理度量的节点、针对协变量度量的节点和针对终止事件的节点。
[0023]响应于接收到请求针对处理度量的特定值的终止事件的可能性的估计的用户输入,终止系统实现处理器系统以使用有向无环图的结构和针对组中的每个组的分布的所估计的参数来计算针对组中的每个组的特定值处的分布密度。计算设备的处理器系统还使用有向无环图的结构和针对组中的每个组的所估计的混合比例来计算在组中的每个组中包括特定值的概率。接下来,终止系统将针对组中的每个组的估计分量计算为特定值处的分布密度与在该组中包括该特定值的概率的乘积。
[0024]与限于估计包含特定值的一个组的因果效应的常规的系统不同,终止系统使用特定值来计算针对组中的每个组的一个估计分量。这些估计分量中的每个表示特定值的因果效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在用于估计终止事件的可能性的数字介质环境中由计算设备实现的方法,所述方法包括:由预处理模块接收描述处理度量的值、协变量度量的值和所述终止事件的指示的观察数据;由所述预处理模块使用混合模型将所述处理度量的所述值分组成组,所述混合模型将所述处理度量表示为分布的混合;由估计模块使用期望最大化算法来估计针对所述组中的每个组的所述分布的混合中的分布的参数;由所述估计模块使用所述期望最大化算法来估计针对所述组中的每个组的混合比例;由图模块形成有向无环图,所述有向无环图具有针对所述处理度量的节点、针对所述协变量度量的节点和针对所述终止事件的节点;由推理模块接收用户输入,所述用户输入请求针对所述处理度量的所述值中的特定值的所述终止事件的所述可能性的估计;由所述推理模块使用所述有向无环图和针对所述组中的每个组的所述分布的混合的所述分布的所述参数来计算所述组中的每个组的所述特定值处的分布密度;由所述推理模块使用所述有向无环图和针对所述组中的每个组的所述混合比例来计算在所述组中的每个组中包括所述特定值的概率;以及由所述推理模块基于针对所述组中的每个组的所述特定值处的所述分布密度和在所述组中的每个组中包括所述特定值的所述概率来生成针对所述特定值的所述终止事件的所述可能性的所述估计的指示以用于在用户界面中显示。2.根据权利要求1所述的方法,其中所述有向无环图使用因果发现算法而被形成。3.根据权利要求1所述的方法,还包括使用附加混合模型将所述协变量度量的所述值分组成附加组,其中所述附加组的数目等于所述组的数目。4.根据权利要求1所述的方法,还包括针对所述有向无环图的每个节点估计条件概率表。5.根据权利要求1所述的方法,还包括将针对所述组中的每个组的估计分量计算为所述特定值处的所述分布密度和在所述组中的每个组中包括所述特定值的所述概率的乘积。6.根据权利要求5所述的方法,还包括将所述估计分量组合为针对所述特定值的所述终止事件的所述可能性的所述估计。7.根据权利要求1所述的方法,其中将所述处理度量的所述值分组成所述组包括执行k均值聚类。8.根据权利要求1所述的方法,其中所述混合模型是高斯混合模型。9.根据权利要求1所述的方法,还包括执行概率逻辑采样,作为生成针对特定值的所述终止事件的所述可能性的所述估计的所述指示的一部分。10.一种系统,包括:预处理模块,至少部分在计算设备的硬件中被实现以:接收描述处理度量的值、协变量度量的值和终止事件的指示的观察数据;确定所述处理度量的所述值的数目大于阈值数目;以及使用混合模型将所述处理度量的所述值分组成组,所述混合模型将所述处理度量表示
为分布的混合,所述组的数目小于所述阈值数目;估计模块,至少部分在所述计算设备的所述硬件中被实现以:使用期望最大化算法来估计针对所述组中的每个组的所述分布的混合中的分布的参数;以及使用所述期望最大化算法来估计针对所述组中的每个组的混合比例;图模块,至少部分在所述计算设备的所述硬件中实现以形成有向无环图,所述有向无环图具有针对所述处理度量的节点、针对所述协变量度量的节点和针对所述终止事件的节点;以及推理模块,至少部分在所述计算设备的所述硬件中被实现以:接收用户输入,所述用户输入请求针对所述处理度量的所述值中的特定值的所述终止事件的可能性的估计;使用所述有向无环图和针对所述...

【专利技术属性】
技术研发人员:V
申请(专利权)人:奥多比公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1