使用解纠缠学习来训练可解释的深度学习模型制造技术

技术编号:38713767 阅读:14 留言:0更新日期:2023-09-08 14:56
一种训练可解释的深度学习模型的方法和系统,包括接收可以是复杂的输入数据集。向深度学习模型提供输入数据集以用于特征提取。在示例性实施例中,深度学习模型根据特征提取生成特征的解纠缠潜在空间。特征可以包括语义上有意义的数据,该语义上有意义的数据然后被提供给低复杂度学习模型。低复杂度学习模型基于指定任务(例如,分类或回归)来生成输出。作为低复杂度学习模型,确信来自深度学习模型的数据输出本质上是可解释的。据输出本质上是可解释的。据输出本质上是可解释的。

【技术实现步骤摘要】
【国外来华专利技术】使用解纠缠学习来训练可解释的深度学习模型


[0001]本公开大体上涉及数据处理,并且更具体地涉及使用解纠缠学习来训练可解释的深度学习模型的系统和方法。

技术介绍

[0002]神经网络通常被认为是模仿活脑的操作的技术。人工网络模拟决策层以执行指定的任务。任务例如包括特征的标识和分类。层可包括输入层、输出层和在其间的至少一个隐藏层。每一层在过程中执行特定类型的分选和排序,其中一些被称为“特征分层结构”。
[0003]为了更好地理解本公开的特征,讨论关于深度神经网络的已知内容可能是有帮助的。深度神经网络可以用于处理未标记的或非结构化的数据。深度学习表示一种机器学习的形式,其中使用人工智能的各方面的技术寻求以超越简单输入/输出协议的方式对信息进行分类和排序。深度神经网络提取对于人类而言通常难以解释或解释过度耗时的数据表示。可以通过最小用户干预提供来自复杂数据集的数据的有意义表达。
[0004]神经网络如何深度操作的大部分仍然是未知的和未解的。通常,在执行任务时,深度神经网络可以不被给予要遵循的规则或条件。深度学习对于其在处理大批次的数据时通过最小的用户干预提供的性能是有用的。
[0005]目前业界正在努力去好地理解和说明(解释)深度神经网络如何表现,使得可以改进建模。可解释性(或者,可说明性)与正在执行的任务有关。这意味着,例如,对于被分类为“狗”的输入图像,来自模型的说明指示输入图像的为什么或哪些特征对分类最负责。因此,试图说明分类(或者,回归)模型。
[0006]传统上,模型是针对特定任务训练的。该模型从输入提取所需的特征并预测输出。如果模型存档其性能在困难的数据集上受到影响。备选地,如果使用复杂的深度架构,则模型可以学习困难的决策边界并且执行得很好。然而,简单模型是可解释的,而复杂的深度模型不是可解释的。选择一种类型的模型而不是另一种类型的模型需要不期望的权衡。简单模型是可解释的,但是性能较差,而深度模型是不可解释的,但是提供了很好的性能。
[0007]目前的一些方法使用例如说明器模块来提供复杂的深度模型的可解释性。说明器模块通常与深度学习模型分离。例如,说明器模块查看数据模型和图像,并且从学习模型外部生成说明。说明可以突出输入特征,这些特征的存在(以及,不存在)对于模型的决策而言是最重要的。然而,说明被认为是说明器的猜测,并且不一定是学习模型如何达到其输出的真实说明。
[0008]其他方法可以包括使用围绕数据点提供局部化说明的代理模型。然而,来自代理模型的输出也可以基于推断,并且不一定是学习模型的决策的准确描绘。代理模型使用与原始神经网络不同的特征,并且仅说明特定示例。另外,代理模型本身可能无法帮助说明全局模型。代理模型通常被限制为说明给定测试数据点附近的决策边界的小区域。
[0009]可以看出,寻找一种方式来更好地说明深度学习模型如何操作以完善和改进其训练的方面,这仍然存在挑战。

技术实现思路

[0010]根据本公开的实施例,提供了一种训练针对机器学习系统的可解释的深度学习模型的方法。该方法包括接收输入数据集。将输入数据集提供给深度神经网络模型。从深度神经网络模型提取特征。生成包括所提取的特征的向量的潜在空间。将向量的潜在空间馈送到任务特定的模型。另外,从任务特定的模型生成特征维度的可解释预测。
[0011]在该方法的一个实施例中,使用编码器模块来提取特征。
[0012]根据本公开的另一个实施例,提供了一种用于训练针对机器学习系统的可解释的深度学习模型的计算机程序产品。该计算机程序产品包括一个或多个计算机可读存储介质,以及共同存储在一个或多个计算机可读存储介质上的程序指令。程序指令包括接收输入数据集。将输入数据集提供给深度神经网络模型。从深度神经网络模型提取特征。生成包括所提取的特征的向量的潜在空间。将向量的潜在空间馈送到任务特定的模型。另外,从任务特定的模型生成特征维度的可解释预测。
[0013]根据一个实施例,向量的潜在空间是输入数据集的解纠缠表示。
[0014]根据本专利技术的另一个实施例,公开了一种计算机服务器。该计算机服务器包括:网络连接;一个或多个计算机可读存储介质;处理器,耦合到网络连接,并且耦合到一或多个计算机可读存储媒体;以及计算机程序产品,包括:共同存储在一个或多个计算机可读存储介质上的程序指令,程序指令包括接收输入数据集。将输入数据集提供给深度神经网络模型。从深度神经网络模型提取特征。生成包括所提取的特征的向量的潜在空间。将向量的潜在空间馈送到任务特定的模型。另外,从任务特定的模型生成特征维度的可解释预测。
[0015]根据一个实施例,任务特定的模型是低复杂度学习模型。
[0016]根据本公开的另一个实施例,提供了一种训练针对机器学习系统的可解释的深度学习模型的方法。该方法包括接收输入数据集。将输入数据集提供给贝塔(Beta)变量自编码器。
[0017]Beta变分自编码器生成输入数据集的输出表示。使用低复杂度学习模型来处理输出表示。低复杂度学习模型确定任务特定的输出数据集。另外,基于任务特定的输出数据集来呈现输入数据集的解释。
[0018]在一个实施例中,由Beta变分自编码器生成的输入数据集的输出表示是由具有语义关系的特征组织的维度向量的潜在空间。
[0019]根据本公开的另一个实施例,提供了一种用于训练针对人工智能计算系统的可解释的深度学习模型的计算机程序产品。该计算机程序产品包括一个或多个计算机可读存储介质,以及共同存储在一个或多个计算机可读存储介质上的程序指令。程序指令包括接收输入数据集。将输入数据集提供给Beta变量自编码器。Beta变分自编码器生成输入数据集的输出表示。使用低复杂度学习模型来处理输出表示。低复杂度学习模型确定任务特定的输出数据集。另外,基于任务特定的输出数据集来呈现输入数据集的解释。
[0020]在一个实施例中,程序指令还包括使用解码器模块来重构输入数据集。重构误差损失是根据重构输入数据集来确定的。分类损失或回归损失是由任务特定的输出数据集确定的。另外,使用重构误差损失和分类损失或回归损失的组合来训练Beta变分自编码器、解码器模块和低复杂度学习模型。
[0021]本文中所描述的技术可以以多种方式实现。下面参考以下附图提供示例实现。
附图说明
[0022]附图具有说明性实施例。它们没有示出所有实施例。其它实施例可以另外使用或代替使用。可以省略可能是显而易见或不必要的细节,以节省空间或用于更有效的说明。一些实施例可以用附加的组件或步骤和/或不用所示出的所有组件或步骤来实践。当相同的标号出现在不同的附图中时,它指的是相同或相似的组件或步骤。
[0023]图1是根据实施例的用于数据的可解释的深度学习的架构的框图。
[0024]图2是根据实施例的用于训练可解释的深度学习模型的架构的框图。
[0025]图3是根据实施例的训练可解释的深度学习模型的系统的框图。
[0026]图4是根据一些实施例的在各种级别的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练针对机器学习系统的可解释的深度学习模型的方法,包括:接收输入数据集;向深度神经网络模型提供所述输入数据集;从所述深度神经网络模型提取特征;生成包括所提取的所述特征的向量的潜在空间;向任务特定的模型馈送向量的所述潜在空间;以及从所述任务特定的模型生成特征维度的可解释预测。2.根据权利要求1所述的方法,其中所述特征使用编码器模块而被提取。3.根据权利要求1所述的方法,其中向量的所述潜在空间是所述输入数据集的解纠缠表示。4.根据权利要求1所述的方法,还包括使用贝塔变分自编码器从所述深度神经网络提取所述特征。5.根据权利要求1所述的方法,其中所述任务特定的模型是低复杂度学习模型。6.根据权利要求1所述的方法,还包括:将针对所述潜在空间中的每个向量的特征维度与语义上有意义的特性相关联;以及基于每个向量的所述语义上有意义的特性来生成特征维度的所述可解释预测。7.一种用于训练针对机器学习系统的可解释的深度学习模型的计算机程序产品,所述计算机程序产品包括:一个或多个计算机可读存储介质,以及被共同存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令包括:接收输入数据集;向深度神经网络模型提供所述输入数据集;从所述深度神经网络模型提取特征;生成包括所提取的所述特征的向量的潜在空间;向任务特定的模型馈送向量的所述潜在空间;以及从所述任务特定的模型生成特征维度的可解释预测。8.根据权利要求7所述的计算机程序产品,其中所述特征使用编码器模块而被提取。9.根据权利要求7所述的计算机程序产品,其中向量的所述潜在空间是所述输入数据集的解纠缠表示。10.根据权利要求7所述的计算机程序产品,其中所述程序指令还包括使用贝塔变分自编码器从所述深度神经网络提取所述特征。11.根据权利要求7所述的计算机程序产品,其中所述任务特定的模型是低复杂度学习模型。12.根据权利要求7所述的计算机程序产品,其中所述程序指令还包括:将针对所述潜在空间中的每个向量的特征维度与语义上有意义的特性相关联;以及基于每个向量的所述语义上有意义的特性来生成特征维度的所述可解释预测。13.一种计算机服务器,包括:网络连接;一个或多个计算机可读存储介质;
处理器,所述处理器被耦合到所述网络连接并且被耦合到所述一个或多个计算机可读存储介质;以及计算机程序产品,所述计算机程序产品包括被共同存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令包括:接收输入数据集;向深度神经网络模型提供所述输入数据集;从所述深度神经网络模型提取特征;生成包括所提取的所述特征的向量的潜在空间;向任务特定的模型馈送向量的所述潜在空间;以及从所述任务特定的模型生成特征维度的可解释预测。14.根据权利要求13所述的计算机服务器,其中所述特征使用编码器模...

【专利技术属性】
技术研发人员:S
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1