模型解释方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33836721 阅读:89 留言:0更新日期:2022-06-16 11:54
本申请实施例提供了一种模型解释方法、装置、电子设备及存储介质。该方法包括:获取预先训练好的黑盒模型、目标任务场景的样本集合和待解释的目标样本;将所述样本集合输入至所述黑盒模型中,得到特征分布信息;对所述目标样本输入至所述黑盒模型进行模型预测,得到模型预测分数;遍历所述目标样本中每个维度的特征;根据所述特征分布信息计算每个维度所述特征对应的加权平均分;根据所述加权平均分与所述模型预测分数的差异值,确定每个维度所述特征在所述目标样本的重要程度;根据所述重要程度对所述黑盒模型基于所述目标样本的模型进行解释。本申请能够帮助工程师解释模型在具体样本的行为来做特征显著性分析。样本的行为来做特征显著性分析。样本的行为来做特征显著性分析。

【技术实现步骤摘要】
模型解释方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型解释方法、装置、电子设备及存储介质。

技术介绍

[0002]在风控场景下,尤其是当模型预测结果用于客户行为拦截、警告等功能时,当模型发出错误的拦截、警告信号时不仅无法起到控制风险的作用,反而会极大影响客户体验,由此可知,风控场景对模型可解释性要求很高。因此,风控场景的工程师往往需要对模型做出解释,如果无法解释模型,模型的效果容易收到前线业务的质疑,这也使得工程师取选择可解释性高的模型。
[0003]相关技术中,模型的可解释性和性能之间往往存在冲突。可解释性高的模型往往效果较差,如逻辑回归、单个决策树,具有较好的可解释性,而效果较差。而一些效果较好的模型,如神经网络、gbdt(多颗决策树集成),这些模型本身难以解释单个样本的行为。面对可解释性和性能之间的冲突,风控工程师往往退而求其次,选择高可解释性效果较差的模型。因此,如何帮助工程师解释模型在具体样本的行为来做特征显著性分析成为本领域亟需解决的技术问题。

技术实现思路

[0004]本申请实施例的主要目的在于提出一种模型解释方法、装置、电子设备及存储介质,能够帮助工程师解释模型在具体样本的行为来做特征显著性分析。
[0005]为实现上述目的,本申请实施例的第一方面提出了一种模型解释方法,所述方法包括:
[0006]获取预先训练好的黑盒模型、目标任务场景的样本集合和待解释的目标样本;
[0007]将所述样本集合输入至所述黑盒模型中,得到特征分布信息;
[0008]对所述目标样本输入至所述黑盒模型进行模型预测,得到模型预测分数;
[0009]遍历所述目标样本中每个维度的特征,根据所述特征分布信息计算每个维度所述特征对应的加权平均分;
[0010]根据所述加权平均分与所述模型预测分数的差异值,确定每个维度所述特征在所述目标样本的重要程度;
[0011]根据所述特征的重要程度对所述黑盒模型基于所述目标样本的模型进行解释。
[0012]在一些实施例,所述特征分布信息包括有所述样本集合中每个维度所述特征对应的特征值以及所述特征值在所述样本集合中的占比。
[0013]在一些实施例,所述根据所述特征分布信息计算每个维度所述特征对应的加权平均分,包括:
[0014]将所述目标样本中每个维度所述特征替换为所述样本集合中同一维度的特征对应的特征值,得到新样本;
[0015]通过所述黑盒模型对所述新样本进行模型评分,得到模型评分分数;
[0016]根据所述模型评分分数和所述特征值在所述样本集合中的占比,得到所述目标样本中每个维度所述特征对应的加权平均分。
[0017]在一些实施例,根据所述加权平均分与所述模型预测分数的差异值,确定每个维度所述特征在所述目标样本的重要程度,包括:
[0018]计算每个维度所述特征对应的所述加权平均分与所述模型预测分数之差,得到第一差异值;
[0019]计算全部维度所述特征对应的所述加权平均分与所述模型预测分数之差,得到第二差异值;
[0020]根据所述第一差异值除以所述第二差异值,得到第一特征重要程度值,其中,所述第一特征重要程度值用于表征每个维度所述特征在所述目标样本的重要程度,且所述第一特征重要程度值的大小与所述重要程度成正比。
[0021]在一些实施例,根据所述重要程度对所述黑盒模型基于所述目标样本的模型进行解释,包括:
[0022]对所述特征按照所述第一特征重要程度值的大小进行排序;
[0023]确定所述第一特征重要程度值最高的前N个特征;
[0024]采用前N个所述特征对所述黑盒模型基于所述目标样本的模型进行局部可解释,其中,N为大于零的正整数。
[0025]在一些实施例,所述根据所述重要程度对所述黑盒模型基于所述目标样本的模型进行解释,包括:
[0026]计算所述样本集合中每个样本每个维度的特征对应的所述第一特征重要程度值;
[0027]对每个样本每个维度的特征对应的所述第一特征重要程度值之和求平均值,得到第二特征重要程度值,其中,所述第二特征重要程度值用于表征每个维度所述特征在所述样本集合的重要程度,且所述第二特征重要程度值的大小与所述重要程度成正比;
[0028]对所述样本集合中每个维度所述特征按照所述第二特征重要程度值的大小进行排序;
[0029]确定所述第二特征重要程度值最高的前N个维度的特征;
[0030]采用前N个维度的所述特征对所述黑盒模型基于所述目标样本的模型进行全局可解释,其中,N为大于零的正整数。
[0031]在一些实施例,所述黑盒模型为分类模型。
[0032]为实现上述目的,本申请实施例的第二方面提出了一种模型解释装置,所述装置包括:
[0033]获取模块,用于获取预先训练好的黑盒模型、目标任务场景的样本集合和待解释的目标样本;
[0034]特征分析模块,用于将所述样本集合输入至所述黑盒模型中,得到特征分布信息;
[0035]预测模块,用于对所述目标样本输入至所述黑盒模型进行模型预测,得到模型预测分数;
[0036]计算模块,用于遍历所述目标样本中每个维度的特征,根据所述特征分布信息计算每个维度所述特征对应的加权平均分;
[0037]分析模块,用于根据所述加权平均分与所述模型预测分数的差异值,确定每个维度所述特征在所述目标样本的重要程度;
[0038]解释模块,用于根据所述特征的重要程度对所述黑盒模型基于所述目标样本的模型进行解释。
[0039]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的方法。
[0040]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法。
[0041]本申请提出的模型解释方法、装置、电子设备及存储介质,其通过获取预先训练好的黑盒模型、目标任务场景的样本集合和待解释的目标样本;将样本集合输入至黑盒模型中,得到特征分布信息;对目标样本输入至黑盒模型进行模型预测,得到模型预测分数;遍历目标样本中每个维度的特征,根据特征分布信息计算每个维度特征对应的加权平均分;根据加权平均分与模型预测分数的差异值,确定每个维度特征在目标样本的重要程度;根据特征的重要程度对黑盒模型基于目标样本的模型进行解释,本申请实施例的模型解释方法,可以不需要关心模型实现细节,将模型当成是一个不可见的黑盒子,通过调整模型输入和观察模型输出的变化来分析某个特征对模型的重要程度,从而帮助工程师解释模型在具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型解释方法,其特征在于,所述方法包括:获取预先训练好的黑盒模型、目标任务场景的样本集合和待解释的目标样本;将所述样本集合输入至所述黑盒模型中,得到特征分布信息;对所述目标样本输入至所述黑盒模型进行模型预测,得到模型预测分数;遍历所述目标样本中每个维度的特征,根据所述特征分布信息计算每个维度所述特征对应的加权平均分;根据所述加权平均分与所述模型预测分数的差异值,确定每个维度所述特征在所述目标样本的重要程度;根据所述特征的重要程度对所述黑盒模型基于所述目标样本的模型进行解释。2.根据权利要求1所述的方法,其特征在于,所述特征分布信息包括有所述样本集合中每个维度所述特征对应的特征值以及所述特征值在所述样本集合中的占比。3.根据权利要求2所述的方法,其特征在于,所述根据所述特征分布信息计算每个维度所述特征对应的加权平均分,包括:将所述目标样本中每个维度所述特征替换为所述样本集合中同一维度的特征对应的特征值,得到新样本;通过所述黑盒模型对所述新样本进行模型评分,得到模型评分分数;根据所述模型评分分数和所述特征值在所述样本集合中的占比,得到所述目标样本中每个维度所述特征对应的加权平均分。4.根据权利要求1所述的方法,其特征在于,所述根据所述加权平均分与所述模型预测分数的差异值,确定每个维度所述特征在所述目标样本的重要程度,包括:计算每个维度所述特征对应的所述加权平均分与所述模型预测分数之差,得到第一差异值;计算全部维度所述特征对应的所述加权平均分与所述模型预测分数之差,得到第二差异值;根据所述第一差异值除以所述第二差异值,得到第一特征重要程度值,其中,所述第一特征重要程度值用于表征每个维度所述特征在所述目标样本的重要程度,且所述第一特征重要程度值的大小与所述重要程度成正比。5.根据权利要求4所述的方法,其特征在于,所述根据所述重要程度对所述黑盒模型基于所述目标样本的模型进行解释,包括:对所述特征按照所述第一特征重要程度值的大小进行排序;确定所述第一特征重要程度值最高的前N个特征;采用前N个所述特征对所述黑盒模型基于所述目标样本的模型进行局部可解释,其中,N为大于零...

【专利技术属性】
技术研发人员:陆凯
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1