一种基于核密度估计的局部可解释方法技术

技术编号：37470019 阅读：19 留言：0更新日期：2023-05-06 09:49

本发明专利技术属于人工智能领域，公开了一种基于核密度估计的局部可解释方法。步骤1、选择要解释的数据实例和训练好的黑盒模型；步骤2、使用核密度估计生成要解释数据周围新的数据；步骤3、使用数据选择方法从步骤2中得到数据集中选择具有代表性的数据，舍弃冗余无用的数据；步骤4、使用数据再平衡方法处理步骤3中得到的数据集，使得其类别平衡；步骤5、使用步骤4得到的数据集训练可解释的决策树模型，并从决策树模型中输出if

全部详细技术资料下载

【技术实现步骤摘要】
一种基于核密度估计的局部可解释方法

[0001]本专利技术属于人工智能领域，具体地说是一种基于核密度估计的局部可解释方法。

技术介绍

[0002]随着机器学习尤其是深度学习等人工智能技术在现实场景中广泛应用于全文检索和各种多媒体信息处理领域，研究人员逐渐开始对人工智能模型所做决策背后的逻辑产生兴趣，人们不再单纯追求模型在预测性上的提高，同时也对模型能否解释自己的预测提出了要求。另一方面，在许多的风险敏感应用场景中，人工智能模型所做的决策可以起到辅助的作用，但是想要真正的把其所做的决策应用在实际问题中，则需要慎重考虑，一旦决策出错，可能会导致较大的损失，这也催生出对模型可解释性的要求。
[0003]目前在可解释研究领域，有一类方法是对黑盒模型进行整体逻辑的解释，该类方法称为全局可解释方法，其通过可解释的模型来模拟黑盒模型的整体行为，进而提供可以概括整个模型的全局解释。但是在复杂的应用场景中，由于黑盒模型过于复杂，因此黑盒模型的决策边界可能会很难拟合，使用可解释的模型去整体的拟合它就会很困难，因此也就无法给出良好的解释。但这不意味着对黑盒模型的解释就无法进行，在具体的数据实例附近，黑盒模型的决策边界很可能清晰简单，因此可以使用可解释的模型捕获进而进行解释，这就是局部可解释方法。局部可解释方法旨在提供数据实例级别的解释，为单条的多维结构化数据提供黑盒模型的结果解释，而恰恰在很多应用场景中需要对具体单个实例的解释，而全局可解释方法，由于要解释的实例可能其邻域数据较稀疏，因此其无法对该实例进行准确的解释。
[0...

【技术保护点】

【技术特征摘要】
1.一种基于核密度估计的局部可解释方法，其特征在于，所述局部可解释方法具体包括以下步骤：步骤1、选择要解释的数据实例和训练好的黑盒模型；步骤2、使用核密度估计生成要解释数据周围新的数据；步骤3、使用数据选择方法从步骤2中得到数据集中选择具有代表性的数据，舍弃冗余无用的数据；步骤4、使用数据再平衡方法处理步骤3中得到的数据集，使得其类别平衡；步骤5、使用步骤4得到的数据集训练可解释的决策树模型，并从决策树模型中输出if
‑
then形式的规则作为解释。2.根据权利要求1所述一种基于核密度估计的局部可解释方法，其特征在于，所述步骤1中要解释的数据实例具体为，是指单条的多维结构化数据；所述步骤1中黑盒模型具体为，是指在该类型多维结构化数据上训练的机器学习模型。3.根据权利要求1所述一种基于核密度估计的局部可解释方法，其特征在于，所述步骤2使用核密度估计生成新数据具体为，核密度估计的公式为：其中，K是核函数，h是带宽。4.根据权利要求3所述一种基于核密度估计的局部可解释方法，其特征在于，首先要在原始数据集中获取要解释的数据实例周围的K个最近邻数据，使用获取的K个最近邻数据训练核密度估计器，利用训练好的核密度估计器获得给定数量的新数据。5.根据权利要求1所述一种基于核密度估计的局部可解释方法，其特征在于，所述步骤3具体为，从步骤2获得的数据集中选择具有代表性的数据点，给定最小样本数的指定阈值，其设计的过程自适应地为要解释的数据实例选择适当的数据点；使用无监督的AgglomerativeClustering算法作为选择的工具，令L为步骤2中所生成的数据，对于L中每个类别的数据G
l
，将要解释的数据加入G
l
中，之后使用AgglomerativeClustering算法进行聚类，聚类类别设置为2，在聚类的结果中选择一个聚簇进行保留，保留的策略是，保留在决策边界的数据，舍弃对决策边界划分无用的数据。6.根据权利要求5所述一种基于核密度估计的局部可解释方法，其特征在于，当G
l
的标...

【专利技术属性】
技术研发人员：石胜飞，吕司涛，王宏志，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人