Embodiments of the present disclosure relate to rule determination for a black-box machine learning model. The rule determination for Black Box Machine Learning Model (BBMLM) is described. These rules are determined by the interpretation system to describe the operation of BBMLM to correlate the input of BBMLM with the output observed by BBMLM, and do not need to know the logic used by BBMLM in the operation to perform these associations. To determine these rules, the interpreting system initially generated a proxy black box model to mimic BBMLM's behavior based only on data indicating input and observed output, because the logic actually used is not available to the system. The interpretation system generates rules describing the operation of BBMLM by using genetic algorithm to combine the identified conditions based on the output of proxy black box model. These rules are output as if then statements, which are configured to have the if part of the list formed as a condition and the then part of the instructions with associated observed output.
【技术实现步骤摘要】
针对黑盒机器学习模型的规则确定
本公开内容的各实施例涉及针对黑盒机器学习模型的规则确定。
技术介绍
计算系统中的机器学习和人工智能(AI)使用正变得普遍。实际上,“智能”算法(涉及某种程度的机器学习或AI的算法)的实现方式存在于很多纵向行业中。这些算法例如存在于医学、金融、成像、电子商务、音频处理等中。从广义上讲,存在两种类型的机器学习算法。这些算法的第一种类型基于相对简单的公式,并且因此通常是可解释的。该第一类型的示例包括线性回归、逻辑回归、决策树等。这些算法的一个优点是它们的操作可以被可视化并且因此被人类解释。举例来说,针对线性回归模型而被学习的权重使得分析人员能够确定模型在做出决策时使用的不同数据属性的相对重要性。因此可以容易地证明由根据该第一类型的算法配置的模型做出的决定,例如,分析人员可以通过指示确定的权重偏离某些属性值的程度来解释该决定,以使得这些模型能够实现该决定。与第一类型的算法相反的是基于能够表示非线性函数的公式的第二类型。该第二类型的算法的示例包括神经网络、随机森林、梯度增强树等。这些算法的一个优点是它们能够在数据中对比第一类型的算法更复杂的模式建模,并且因此通常关于大多数数据集来实现比第一类型更高的准确度。然而,实现这种更高准确度水平的权衡是模型可解释性。例如,神经网络通常包括具有不同激活和辍学(dropout)的隐藏层,并且随机森林可能具有数千棵树,其中最终决策是组合由这些树中的每个树做出的各个预测的函数。这样的模型可以被认为是“黑盒”,因为这些模型在操作期间用于产生输出的逻辑在很大程度上是未知的。关于黑盒模型如何产生输出的可解释性 ...
【技术保护点】
1.一种在用来描述黑盒机器学习模型的操作的数字媒体环境中由计算设备实现的方法,所述方法包括:由所述计算设备生成代理黑盒模型以基于指示对黑盒机器学习模型的输入和所述黑盒机器学习模型的观察到的输出的数据来模仿所述黑盒机器学习模型的行为,所述数据还指示所述黑盒机器学习模型将其与所述输入相关联的所述观察到的输出;由所述计算设备将所述输入的未分类属性拆分为分类属性;由所述计算设备通过根据由所述数据指示的所述输入将值与所述分类属性相关联来形成输入实例;由所述计算设备将所述输入实例暴露给所述代理黑盒模型;由所述计算设备从所述代理黑盒模型接收所述黑盒机器学习模型将所述输入实例与所述观察到的输出相关联的概率;由所述计算设备基于所述概率来生成用于所述观察到的输出的条件,条件包括分类属性的标识符和来自与观察到的输出相关联的输入实例的属性值或值的范围;由所述计算设备通过将生成的所述条件与遗传算法组合来生成用于所述观察到的输出的规则,所述规则包括生成的所述条件中的至少两个条件的组合和相关联的所述观察到的输出的指示。
【技术特征摘要】
2017.11.14 US 15/812,9911.一种在用来描述黑盒机器学习模型的操作的数字媒体环境中由计算设备实现的方法,所述方法包括:由所述计算设备生成代理黑盒模型以基于指示对黑盒机器学习模型的输入和所述黑盒机器学习模型的观察到的输出的数据来模仿所述黑盒机器学习模型的行为,所述数据还指示所述黑盒机器学习模型将其与所述输入相关联的所述观察到的输出;由所述计算设备将所述输入的未分类属性拆分为分类属性;由所述计算设备通过根据由所述数据指示的所述输入将值与所述分类属性相关联来形成输入实例;由所述计算设备将所述输入实例暴露给所述代理黑盒模型;由所述计算设备从所述代理黑盒模型接收所述黑盒机器学习模型将所述输入实例与所述观察到的输出相关联的概率;由所述计算设备基于所述概率来生成用于所述观察到的输出的条件,条件包括分类属性的标识符和来自与观察到的输出相关联的输入实例的属性值或值的范围;由所述计算设备通过将生成的所述条件与遗传算法组合来生成用于所述观察到的输出的规则,所述规则包括生成的所述条件中的至少两个条件的组合和相关联的所述观察到的输出的指示。2.根据权利要求1所述的方法,其中所述规则被配置为if-then语句,在所述if-then语句中生成的所述条件的组合形成语句的if部分,并且相关联的所述观察到的输出形成所述语句的then部分。3.根据权利要求1所述的方法,其中所述观察到的输出是所述黑盒机器学习模型与由所述数据指示的所述输入的实例相关联的类。4.根据权利要求1所述的方法,其中将生成的所述条件与所述遗传算法组合包括:计算用于由所述遗传算法产生的规则的迭代的适应度度量;以及基于所述适应度度量来中止通过所述遗传算法的规则产生的所述迭代。5.根据权利要求4所述的方法,其中所述适应度度量是由所述遗传算法产生的用于迭代的所述规则的至少精度度量和覆盖度量的函数。6.根据权利要求5所述的方法,其中所述适应度度量还是由所述遗传算法产生的用于所述迭代的所述规则的规则长度的函数。7.根据权利要求5所述的方法,其中所述适应度度量还是由所述遗传算法产生的用于所述迭代的所述规则的规则重叠的函数。8.根据权利要求1所述的方法,还包括在不知道由所述黑盒机器学习模型在操作中使用以将所述观察到的输出与所述输入相关联的逻辑的情况下生成所述代理黑盒模型。9.根据权利要求1所述的方法,还包括选择生成的所述规则的子集以描述所述黑盒机器学习模型的所述操作。10.根据权利要求9所述的方法,其中规则的所述子集基于被配置为优化所述规则的覆盖的选择技术而被选择。11.根据权利要求9所述的方法,其中规则的所述子集基于被配置为优化作为所述规则的精度和...
【专利技术属性】
技术研发人员:P·古普塔,S·沃玛,P·阿加瓦尔,N·普里,B·克里希纳默西,
申请(专利权)人:奥多比公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。