一种SHAP的优化方法、设备及介质技术

技术编号:31086340 阅读:44 留言:0更新日期:2021-12-01 12:39
本发明专利技术实施例公开了一种SHAP的优化方法、设备及介质。其中,方法包括:基于第一目标计算方式计算SHAP基准值;根据采样样本数量生成掩码权重值;基于第二目标计算方式对训练样本集进行压缩处理,得到训练压缩样本;根据训练压缩样本和待解释样本生成采样样本;基于第三目标计算方式计算采样样本的模型预测结果;基于第四目标计算方式根据SHAP基准值、掩码权重值以及采样样本的模型预测结果确定SHAP结果值。本发明专利技术实施例的技术方案能够降低模型解释的计算量,提升模型解释的计算效率。提升模型解释的计算效率。提升模型解释的计算效率。

【技术实现步骤摘要】
一种SHAP的优化方法、设备及介质


[0001]本专利技术实施例涉及人工智能
,尤其涉及一种SHAP的优化方法、设备及介质。

技术介绍

[0002]随着人工智能的发展,机器学习的应用也越来越广泛。一些简单模型(线性模型等)因易于解释以及性能高的特点受到青睐,但是简单模型的精度有限,使得在具有高精度要求的应用场景中复杂模型越来越受欢迎,而复杂模型大部分属于黑盒模型,具有不透明、非直观以及难以理解的特点。基于复杂模型的上述特点使得复杂模型存在精度和可解释性之间的紧张关系。正确解释复杂模型的输出结果可以便于技术人员理解,还可以建立模型使用者的信任,同时还能够反向指导模型优化,由此可见正确解释复杂模型的输出结果至关重要。
[0003]SHAP(SHapley Additiveex Planations,沙普利可加性模型解释方法)作为特征重要性的统一量度方法,成为当前通用的模型的解释方法,但是SHAP主要通过对大量训练样本进行单机计算实现对模型的解释,而SHAP的计算量与训练样本成线性增长关系,与训练样本的特征维度成指数增长,因此通过SHA本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种沙普利可加性模型解释方法SHAP的优化方法,其特征在于,包括:基于第一目标计算方式计算SHAP基准值;根据采样样本数量生成掩码权重值;基于第二目标计算方式对训练样本集进行压缩处理,得到训练压缩样本;根据所述训练压缩样本和待解释样本生成采样样本;基于第三目标计算方式计算所述采样样本的模型预测结果;基于第四目标计算方式根据所述SHAP基准值、所述掩码权重值以及所述采样样本的模型预测结果确定SHAP结果值。2.根据权利要求1所述的方法,其特征在于,所述基于第一目标计算方式计算SHAP基准值,包括:获取第一计算方式评估阈值;根据单个训练样本的数据量、单个所述训练样本的推理预测时间、所述训练样本集中所述训练样本的数量、数据在节点间的传输速度以及节点数量计算第一计算方式评估值;在所述第一计算方式评估值大于所述第一计算方式评估阈值的情况下,将分布式计算方式确定为所述第一目标计算方式,并基于所述分布式计算方式计算SHAP基准值;在所述第一计算方式评估值小于等于所述第一计算方式评估阈值的情况下,将单机计算方式确定为所述第一目标计算方式,并基于所述单机计算方式计算SHAP基准值。3.根据权利要求2所述的方法,其特征在于,所述基于所述分布式计算方式计算SHAP基准值,包括:将所述训练样本集划分为多个训练样本子集;计算各所述训练样本子集的模型预测结果;根据各所述训练样本子集的模型预测结果确定所述SHAP基准值。4.根据权利要求1所述的方法,其特征在于,所述根据采样样本数量生成掩码权重值,包括:根据预设置信度数据或所述待解释样本的特征维度数据计算所述采样样本数量;生成所述采样样本数量的掩码,并根据所述掩码和所述待解释样本的特征维度数据生成所述掩码权重值。5.根据权利要求1所述的方法,其特征在于,所述基于第二目标计算方式对训练样本集进行压缩处理,得到训练压缩样本,包括:获取第二计算方式评估阈值;根据预设压缩样本数量、单个训练样本的压缩时间、单个所述采样样本的生成时间、在分布式计算方式下目标数量数据的洗牌耗时、所述训练样本集中所述训练样本的数量以及节点数量计算第二计算方式评估值;在所述第二计算方式评估值大于所述第二计算方式评估阈值的情况下,将分布式计算方式确定为所述第二目标计算方式,并基于所述分布式计算方式对所述训练样本集进行压缩处理;在所述第二计算方式评估值小于等于所述第二计算方式评估阈值的情况下,将单机计算方式确定为所述第二目标计算方式,并基于所述单机计算方式对所述训练样本集进行压缩处理。
6.根据权利要求1

5任一所述的方法,其特征在于,所述对训练样本集进行压缩处理,包括:对所述训练样本集中的训练样本进行聚类处理,得到至少一个训练样本聚类;对各所述训练样本聚类进行抽样;根据各所述训练样本聚类的抽样样本生成所述训练压缩样本。7.根据权利要求2所述的方法,其特征在于,所述基于第三目标计算方式计算所述采样样本的模型预测结果,包括:在所述第一计算方式评估值大于所述第一计算方式评估阈值的情况下,将分布式计算方式确定为所述第三目标计算方式,并基于所述分布式计算方式计算所述采样样本的模型预测结果;在所述第一计算方式评估值小于等于所述第一计算方式评估阈值的情况下,将单机计算方式确定为所述第三目标计算方式,并基于所述单机计算方式计算所述采样样本的模型预测结果。8.根据权利要求1所述的方法,其特征在于,所述基于第四目标计算方式根据所述SHAP基准值、所述掩码权重值以及所述采样样本的模型预测结果确定SHAP结果值,包括:获取第四计算方式评估阈值;获取在一个标签下所述待解释样本全部特征的SHAP值计算耗时数据、SHAP值数据量、标签数量、节点数量、数据在节点间的传输速度以及所述采样样本数量计算第四计算方式评估值;在所述第四计算方式评估值大于所述第四计算方式评估阈值的情况下,将分布式计算方式确定为所述第四目标计算方式,并基于所述分布式计算方式根据所述SHAP基准值、所述采样样本的模型预测结果以及所述掩码权重值确定SHAP结果值;在所述第四计算方式评估值小于等于所述第四计算方式评估阈值的情况下,将单机计算方式确定为所述第四目标计算方式,并基于所述单机计算方式根据所述SHAP基准值、所述采样样本的模型预测结果以及所述掩码权重值确定SHAP结果值。9.一种计算机设备,包括处理器和存储器,所述存储器用于存储指令,当所述指令执行时使得所述处理器执行以下操作:基于第...

【专利技术属性】
技术研发人员:张燕杨一帆唐剑飞
申请(专利权)人:南京星环智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1