具有被配置为生成可解释结果的可分解分层的预测模型制造技术

技术编号:37853939 阅读:12 留言:0更新日期:2023-06-14 22:46
用于从机器学习模型提供可解释预测的计算机实现的方法包括接收表示由一个或多个预测模型用于生成预测的集合(Y)的特征的集合(X)的分层结构的数据结构。通过基于分层结构将可解释性分配给每个预测Y

【技术实现步骤摘要】
【国外来华专利技术】具有被配置为生成可解释结果的可分解分层的预测模型

技术介绍

[0001]本公开一般涉及可编程计算机,并且更特别地涉及被配置成生成并运行一组预测模型的可编程计算机系统,该组预测模型使用所利用的特征的可分解的分层结构来生成更容易解释的结果,所利用的特征被分组成不同粒度。
[0002]许多领域(例如医学领域)试图结合使用预测机器学习模型来执行需要数据分析的任务,并且还需要使用该分析的结果作为未来动作的基础。通常,预测机器学习模型由神经网络或其他机器学习算法生成并在其上运行,该神经网络或其他机器学习算法可以被实现为被配置为运行一组机器学习算法的可编程计算机。神经网络结合了来自各种学科的知识,包括神经生理学、认知科学/心理学、物理学(统计力学)、控制理论、计算机科学、人工智能、统计学/数学、模式识别、计算机视觉、并行处理和硬件(例如,数字/模拟/VLSI/光学)。
[0003]神经网络和其它机器学习算法的基本功能是通过一种机器感知解释非结构化数据来识别模式。处于其本地形式的非结构化真实世界数据(例如,图像、声音、文本或时序数据)被转换成可由计算机理解和操纵的数值形式(例如,具有幅度和方向的向量)。机器学习算法对真实世界数据向量执行基于学习的分析的多次迭代,直到发现并学习了包含在真实世界数据向量中的模式(或关系)。所学习的模式/关系用作预测模型,其可用于执行各种任务,包括例如对真实世界数据的预测。预测任务通常取决于使用标记的数据集来训练神经网络(即,模型)或其他机器学习模型以识别标记与数据之间的相关性。这被称为受监督的学习。
[0004]虽然简单的预测模型可以使用通用线性模型或决策树模型来自我解释,但是对于更复杂的模型结构来说,理解针对更复杂的任务生成的机器学习模型结果可能是具有挑战性的。为执行复杂任务(例如,在线帖子的情感分析)所开发的机器学习模型通常是“黑盒”模型,因为被分配给该模型的任务与由该模型生成的结果之间的关系是不清楚的。但是随着任务变得更加复杂,模型的结果与模型被设计为执行的任务之间的关系可能是不清楚的。

技术实现思路

[0005]用于从机器学习模型提供可解释预测的计算机实现的方法包括:接收表示由一个或多个预测模型用于生成预测的集合(Y)的特征的集合(X)的分层结构的数据结构。该方法包括通过基于分层结构将可解释性分配给预测模型的每个预测Y
i
来构建对应于预测模型的可解释性模型。分配可解释性包括:使用分层结构将输入数据的特征的集合(X)分解成多个分区X
j
,其中,N是分区的数量。此外,使用分层结构将每个分区分解成多个子分区,直到获得原子子分区。针对每个分区根据子分区的预测分数来计算分数,其中,预测分数表示子分区之间的交互。此外,输出基于可解释性模型的由预测模型提供的预测的解释。解释表示由预测模型用于生成预测的一个或多个特征的权重。
[0006]本公开的其他实施例在计算机系统和计算机程序产品中实现上述方法的特征。
[0007]通过本公开的技术实现附加的技术特征及益处。本公开的实施例和方面在本文中
详细描述,并且被认为是所要求保护的主题的一部分。为了更好地理解,参考详细描述和附图。
附图说明
[0008]在说明书的结尾处的权利要求中特别指出并清楚地要求了本文描述的专有权的细节。从结合附图的以下详细描述中,本公开的实施例的前述和其它特征和优点将变得显而易见,在附图中:
[0009]图1描绘了可以用于实现本专利技术的各方面的机器学习系统;
[0010]图2描绘了可以由图1所示的机器学习系统实现的学习阶段;
[0011]图3描绘了根据本专利技术的一个或多个实施例配置和布置的机器学习模型和组件的配置的框图;
[0012]图4描绘了根据本专利技术的一个或多个实施例的示例性分层结构的图;
[0013]图5描绘了根据本专利技术的一个或多个实施例的示例性分层结构的图;
[0014]图6描绘了根据本专利技术的一个或多个实施例的用于以给定粒度训练预测的注意力模型的示例的图;
[0015]图7描绘了根据本专利技术的一个或多个实施例的使用分层结构的训练模型的说明性示例;
[0016]图8描绘了根据本专利技术的一个或多个实施例的基于预测的粗(course)水平与紧接着的下一预测水平的差异来量化因素的交互的说明性示例;
[0017]图9描绘了根据本专利技术的一个或多个实施例的用于生成和运行预测模型的示例系统的说明性示例,该预测模型使用所利用特征的可分解的分层结构来生成更容易解释的结果;
[0018]图10描绘了根据本专利技术的一个或多个实施例的用于添加带有可分解的分层结构的可解释性的算法的伪代码的说明性示例;
[0019]图11描绘了根据本专利技术的一个或多个实施例的用于使用可分解的分层结构为预测模型提供可解释性的方法的流程图;以及
[0020]图12描绘了根据本专利技术的一个或多个实施例的使用可分解的分层结构为预测模型提供可解释性的处理系统的框图。
[0021]这里描绘的图是说明性的。在不脱离本公开的精神的情况下,可能存在对其中描述的图或操作的许多变化。例如,可以以不同的顺序执行动作,或者可以添加、删除或修改动作。此外,术语“耦合”及其变型描述了在两个元件之间具有通信路径,并且不暗示元件之间的直接连接,而在它们之间没有中间元件/连接。所有这些变化都被认为是说明书的一部分。
具体实施方式
[0022]本公开一般涉及用于具有被配置为生成可解释结果的可分解的分层的预测模型的系统和方法。本文描述的系统和方法涉及提供可解释的结果以及来自机器学习模型的结果,其可以容易地被用户理解,诸如专业领域中的决策者。该系统可以从由机器学习模型产生的输入数据集生成解释的结果。解释的结果提供上下文,诸如识别影响特定预测的因素,
并且以清楚且容易理解的方式呈现机器学习模型的结果和上下文。该系统利用可分解方法来向机器学习模型所产生的结果的每个关键因素添加可解释性。可以以不同的粒度级别查看解释的结果,从而允许用户放大到提供有上下文推理和基本原理的结果的更细粒度级别。
[0023]本公开的实施例涉及使用可分解的分层结构和注意力神经网络来提供预测模型的可解释性。非限制性的示例计算机实现的方法包括使用由一个或多个专家创建的分层结构来生成用于分层结构的每一层的多个预测模型。分层结构的每一层包括特征的子集,其中,根层包括由分层结构考虑的所有特征。每个预测模型可以使用注意力神经网络,以便使用来自对应层的特征来预测输出。在本专利技术的一个或多个实施例中,每个层被进一步划分为特征组,并且每个分区用于训练相应的预测模型。通过从每个层训练该多个预测模型,使用分配给每个分区的分数或值来生成最终预测的输出。
[0024]本专利技术的一个或多个实施例包括一种计算机实现的方法,该方法包括根据分层结构划分输入数据。此外,该方法包括针对每个分区提供预测分数或值。方法可进一步包括使用所述分层结构将每一分区分解成子分区。此外,方法包括为每个子分区提供新的预测分数或值。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于从机器学习模型提供可解释预测的计算机实现的方法,所述方法包括:由计算设备的处理器接收表示由一个或多个预测模型用于生成预测的集合(Y)的特征的集合(X)的分层结构的数据结构;由所述处理器通过基于所述分层结构将可解释性分配给所述预测模型的每个预测Y
i
,构建对应于所述预测模型的可解释性模型,其中,分配所述可解释性包括:由所述处理器使用所述分层结构将所述输入数据的所述特征的集合(X)分解成多个分区X
j
,其中,N是分区的数量;由所述处理器使用所述分层结构将来自所述分区的每个分区分解成多个子分区,直到获得原子子分区;以及由所述处理器根据每个分区的子分区的预测分数来计算所述每个分区的分数,其中,所述预测分数表示所述子分区之间的交互;以及由所述处理器基于所述可解释性模型输出由所述预测模型提供的预测的解释,其中,所述解释表示由所述预测模型用于生成所述预测的所述一个或多个特征的权重。2.根据权利要求1所述的计算机实现的方法,其中,所述特征的分区是所述输入数据的互斥子集。3.根据权利要求1所述的计算机实现的方法,还包括基于每个分区的所述预测分数来生成所述输入数据的总分数。4.根据权利要求1所述的计算机实现的方法,其中,生成所述分层结构还包括:由所述处理器接收由一个或多个专家管理的行业数据;以及由所述处理器通过将所述行业数据解析为所述特征的分区并创建所述分区之间的关联来构建树模型,来使用所述行业数据生成所述分层结构。5.根据权利要求1所述的计算机实现的方法,还包括由所述处理器基于针对所选择的特征的所述预测分数来识别推荐动作。6.根据权利要求1所述的计算机实现的方法,其中,每个分区与对应的可解释性模型相关联。7.根据权利要求1所述的计算机实现的方法,其中,所述可解释性模型是注意力模型。8.一种系统,包括:至少一个存储器,其存储计算机可执行指令;以及至少一个处理器,其被配置为访问所述至少一个存储器并且执行用于根据机器学习模型提供可解释预测的方法,所述方法包括:由计算设备的处理器接收表示由一个或多个预测模型用于生成预测的集合(Y)的特征的集合(X)的分层结构的数据结构;由所述处理器通过基于所述分层结构将可解释性分配给所述预测模型的每个预测Y
i
,构建对应于所述预测模型的可解释性模型,其中,分配所述可解释性包括:由所述处理器使用所述分层结构将所述输入数据的所述特征的集合(X)分解成多个分区X
j
,其中,N是分区的数量;由所述处理器使用所述分层结构将来自所述分区的每个分区分解成多个子分区,直到获得原子子分区;以及
由所述处理器根据每个分区的子分区的预测分数来计算所述每个分区的分数,其中,所述预测分数表示所述子分区之间的交互;以及...

【专利技术属性】
技术研发人员:周念军W
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1