使用特征分析解释机器学习结果制造技术

技术编号:28943304 阅读:32 留言:0更新日期:2021-06-18 21:51
描述了用于分析机器学习模型的结果的技术和解决方案。获得包括第一多个特征的数据集的结果。定义了多个特征组。至少一个特征组包含第一多个特征中的第二多个特征。第二多个特征少于所有第一多个特征。可以基于确定第一多个特征中的特征之间的依赖关系(包括使用上下文贡献值)来定义特征组。可以通过聚合特征组的组成特征的上下文贡献值来确定特征组的组上下文贡献值。

【技术实现步骤摘要】
使用特征分析解释机器学习结果
本公开通常涉及解释机器学习模型,包括由机器学习模型提供的结果和机器学习模型的操作。特定实施方式涉及分析用作机器学习模型的输入的特征以识别特征之间的关系,包括在实施例中将特征分组到特征组中。
技术介绍
机器学习越来越多地被用于做出或帮助做出各种决策,或以其他方式分析数据。机器学习技术可以用来更快或更准确地分析数据,这可以由人类来完成。在一些情况下,人工分析数据集是不切实际的。因此,机器学习通过为这些数据的实际应用提供了路径而促进了“大数据”的兴起。然而,即使对于该领域的专家来说,机器学习也可能难以理解。当机器学习应用于特定领域的特定应用时,情况会更加复杂。也就是说,计算机科学家可能理解在机器学习技术中使用的算法,但是可能没有足够好地理解主题领域以确保模型被准确地训练或者正确地评估由机器学习提供的结果。相反,领域专家可能精通给定的主题领域,但可能不理解机器学习算法是如何工作的。因此,如果用户不理解机器学习模型是如何工作的,他们可能对机器学习提供的结果没有信心。如果用户对机器学习的结果没有信心,他们可能根本不太可能使用机器学习,不太可能使用可以获得的前述的优势。因此,存在改进的余地。
技术实现思路
提供本
技术实现思路
是为了以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中进一步描述。本
技术实现思路
不旨在指出所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。描述了用于分析机器学习模型的结果的技术和解决方案。为包括第一多个特征的数据集获得结果。定义多个特征组。至少一个特征组包括第一多个特征中的第二多个特征。第二多个特征少于所有第一多个特征。可以基于确定第一多个特征中的特征之间的依赖关系(dependency)(包括使用上下文贡献值),来定义特征组。可以通过聚合特征组的组成特征的上下文贡献值来为特征组确定组上下文贡献值。提供了一种形成特征组的方法。接收训练数据集。训练数据集包括第一多个特征的值。使用训练数据集来训练机器学习算法,以提供机器学习算法。使用经训练的机器学习算法来处理分析数据集以提供结果。形成多个特征组。该特征组中的至少一个特征组包括第一多个特征中的第二多个特征。第二多个特征是第一多个特征的适当子集。根据另一个实施例,提供了一种使用数据集中的特征之间的依赖关系来形成特征组的方法。接收训练数据集。训练数据集包括第一多个特征的值。使用训练数据集来训练机器学习算法,以提供经训练的机器学习算法。使用经训练的机器学习算法来处理分析数据集以提供结果。为第一多个特征中的第二多个特征确定上下文贡献值。确定第二多个特征中的特征之间的依赖关系。至少部分地基于所确定的依赖关系来形成多个特征组。所述多个特征组中的至少一个特征组包括第一多个特征中的第三多个特征。第三多个特征是第一多个特征的适当子集。根据另一方面,提供了一种用于确定特征组贡献值的方法。确定机器学习算法中使用的第一多个特征。形成多个特征组,诸如使用机器学习结果的分析、语义分析、统计分析、数据沿袭(datalineage)、或它们的组合。所述多个特征组中的至少一个特征组包括第一多个特征中的第二多个特征。第二多个特征是第一多个特征的适当子集。使用机器学习算法来确定分析数据集的结果。对于特征组的至少一部分,聚合各个特征组中的特征对该结果的贡献值以提供特征组贡献值。本公开还包括被配置为执行上述方法或包括用于执行上述方法的指令的计算系统和有形的非暂时性计算机可读存储介质。如本文所述,各种其他特征和优点可以根据需要结合到该技术中。附图说明图1是示出用作机器学习模型的输入的值(用于训练模型或用于分类)如何与特征相关联的示意图。图2是示出用作机器学习模型的输入(用于训练模型或用于分类)的值如何与特征相关联、以及不同的特征如何以不同的程度对结果做出贡献的示意图。图3是示出多个星型模式(starschema)是如何相关的数据模型的图。图4是示出该模式中数据库表的至少一部分之间的关系的数据库模式(databaseschema)的示意图。图5示出了可以被包括在数据字典中或者以其他方式用于定义数据库表的表元素之间的关系的示意图。图6是示出数据字典的组件和数据库层的组件的示意图。图7呈现了通过访问和处理来自多个数据源的数据来提供查询结果的包括联接(join)来自多个表的结果的操作的示例数据访问操作。图8是示出用作机器学习模型的输入的特征之间的依赖关系信息的矩阵。图9是示出用作机器学习模型的输入的特征之间的关系的绘图(plot)。图10是示意性示出如何将用作机器学习模型的输入的特征中的至少一部分分配给特征组的示意图。图11是呈现特征组及它们对机器学习模型提供的结果的贡献的示例用户界面屏幕。图12示意性地示出了如何处理数据集以训练和使用机器学习模型、以及如何分析和使用在这些过程中用作输入的特征并形成特征组的图。图13A是用于形成特征组的示例方法的流程图。图13B是用于至少部分地通过分析用作机器学习模型的输入的特征之间的依赖关系来形成特征组的示例方法的流程图。图13C是用于形成特征组并计算它们对由机器学习模型提供的结果的贡献的示例方法的流程图。图14是其中可以实施一些所描述的实施例的示例计算系统的示意图。图15是可结合本文描述的技术使用的示例云计算环境。具体实施方式示例1–概述机器学习越来越多地被用于做出或帮助做出各种决策,或以其他方式分析数据。机器学习技术可以用来更快或更准确地分析数据,这可以由人类来完成。在一些情况下,人工分析数据集是不切实际的。因此,机器学习通过为这些数据的实际应用提供了路径而促进了“大数据”的兴起。然而,即使对于该领域的专家来说,机器学习也可能难以理解。当机器学习应用于特定领域的特定应用时,情况会更加复杂。也就是说,计算机科学家可能理解在机器学习技术中使用的算法,但是可能没有足够好地理解主题领域以确保模型被准确地训练或者正确地评估由机器学习提供的结果。相反,领域专家可能精通给定的主题领域,但可能不理解机器学习算法是如何工作的。因此,如果用户不理解机器学习模型是如何工作的,他们可能对机器学习提供的结果没有信心。如果用户对机器学习的结果没有信心,他们可能根本不太可能使用机器学习,不太可能使用可以获得的前述的优势。作为示例,机器学习模型通常可以使用几十个、几百个或几千个输入参数,这些参数也可以被称为特征或变量。用户可能很难理解给定变量如何影响或贡献由机器学习模型提供的结果,诸如预测。至少在一些情况下,可以量化特定变量对特定类型的结果(例如,通常由机器学习模型提供的结果)、或者特定输入特征集的特定结果的贡献。然而,一旦给定的机器学习模型使用了除了少数变量之外的变量,用户可能很难理解单独的变量对模型的贡献。如果用户不理解变量是如何做贡献的,他们可能不信任模型或结果。此外,即使用户充分信任该本文档来自技高网...

【技术保护点】
1.一种计算系统,包括:/n存储器;/n一个或多个处理单元,耦合到所述存储器;和/n一个或多个计算机可读存储介质,存储指令,所述指令当被加载到所述存储器时,使所述一个或多个处理单元执行操作以用于:/n接收训练数据集,所述训练数据集包括第一多个特征的值;/n使用所述训练数据集来训练机器学习算法,以提供经训练的机器学习模型;/n使用所述经训练的机器学习模型来处理分析数据集,以提供结果;以及/n形成多个特征组,所述特征组中的至少一个包括所述第一多个特征中的第二多个特征,所述第二多个特征是所述第一多个特征的适当子集。/n

【技术特征摘要】
20191212 US 16/712,7921.一种计算系统,包括:
存储器;
一个或多个处理单元,耦合到所述存储器;和
一个或多个计算机可读存储介质,存储指令,所述指令当被加载到所述存储器时,使所述一个或多个处理单元执行操作以用于:
接收训练数据集,所述训练数据集包括第一多个特征的值;
使用所述训练数据集来训练机器学习算法,以提供经训练的机器学习模型;
使用所述经训练的机器学习模型来处理分析数据集,以提供结果;以及
形成多个特征组,所述特征组中的至少一个包括所述第一多个特征中的第二多个特征,所述第二多个特征是所述第一多个特征的适当子集。


2.根据权利要求1所述的计算系统,其中,形成多个特征组还包括:
确定所述第一多个特征的至少一部分对所述结果的贡献。


3.根据权利要求2所述的计算系统,其中,确定所述第一多个特征的至少一部分的贡献包括确定所述第一多个特征的所述至少一部分的上下文贡献。


4.根据权利要求3所述的计算系统,其中,所述上下文贡献被计算为SHAP值。


5.根据权利要求3所述的计算系统,其中,所述上下文贡献被计算为LIME值。


6.根据权利要求3所述的计算系统,所述操作还包括:
对于所述第一多个特征的至少一部分,确定相应特征的总体贡献;以及
对于从所述第一多个特征中选择的第三多个特征,将所述第三多个特征中的给定特征的总体贡献与所述给定特征的上下文贡献进行比较。


7.根据权利要求6所述的计算系统,所述操作还包括:
对所述数据集的多个输入实例的特征的总体贡献进行比较,以确定所述第三多个特征中的相应特征的一致性值。


8.根据权利要求1所述的计算系统,所述操作还包括:
聚合与所述多个特征组相关联的特征的贡献,以提供所述多个特征组中的特征组的聚合的贡献值。


9.根据权利要求8所述的计算系统,所述操作还包括:
将所述多个特征组中的至少一个特征组的重要性值计算为属于所述至少一个特征组的特征的贡献值的平均值。


10.根据权利要求9所述的计算系统,所述操作还包括:
进行呈现以用于显示用户界面屏幕,所述用户界面屏幕显示所述多个特征组的至少一部分和所述多个特征组的所述至少一部分的相应特征组的重要性值。


11.根据权利要求8所述的计算系统,所述操作还包括:
进行呈现以用于显示用户界面屏幕,所述用户界面屏幕显示所述多个特征组的至少一部分和作为相应特征组的成员的特征。


12.根据权利要求11所述的计算系统,所述操作还包括:
接收向所述多个特征组中的特征组添加所述第一多个特征中的至少一个特征、或者从所述第一多个特征组中的特征组中移除所述第一多个特征中的至少一个特征的用户输入。


13.根据权...

【专利技术属性】
技术研发人员:Y勒比亚尼克
申请(专利权)人:商业对象软件有限公司
类型:发明
国别省市:爱尔兰;IE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1