针对模型解释工具的评测方法和装置制造方法及图纸

技术编号:32199440 阅读:35 留言:0更新日期:2022-02-08 16:05
本说明书实施例提供了一种针对模型解释工具的评测方法和装置。该方法的一具体实施方式包括:确定针对预先训练的带有后门的目标模型的潜在触发器,其中,目标模型针对携带有后门触发器的样本数据的输出为目标标签,潜在触发器具有使目标模型输出目标标签的功能;响应于确定潜在触发器和后门触发器满足预设条件,确定目标模型为评测用模型;基于评测用模型和预设的评测用样本数据,使用待评测的模型解释工具生成显著性信息,其中,评测用样本数据中添加有后门触发器,显著性信息用于显示测评用样本数据的各部分对评测用模型输出的影响;根据显著性信息和后门触发器,确定评测指标,其中,评测指标用于对模型解释工具进行评测。评测指标用于对模型解释工具进行评测。评测指标用于对模型解释工具进行评测。

【技术实现步骤摘要】
针对模型解释工具的评测方法和装置


[0001]本说明书实施例涉及机器学习
,尤其涉及一种针对模型解释工具的评测方法和装置。

技术介绍

[0002]目前机器学习在各个领域都有着广泛的应用,机器学习模型本质上是用一个复杂的函数拟合数据和目标之间的关系。机器学习模型与一些简单的规则有着很大的差别,规则明确数据和目标之间的关系,但是机器学习模型是一个黑盒,只有输入和输出。人们往往无法理解机器学习模型的决策流程和依据,因此无法真正的信任模型。为了解释机器学习模型,国内外的研究人员针对机器学习模型的可解释性进行了大量的研究,并提出了多种用于对机器学习模型进行解释的模型解释工具。然而,目前缺少具有实际意义的性能评测方法,来判断一个模型解释工具的优劣,这一问题对机器学习模型的可解释性研究造成了很大的困难。

技术实现思路

[0003]本说明书的实施例描述了一种针对模型解释工具的评测方法和装置,本方法基于带有后门的评测用模型和添加有后门触发器的评测用样本数据,使用待评测的模型解释工具生成显著性信息,并根据显著性信息和后门触发器确定用于对模型解本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种针对模型解释工具的评测方法,包括:确定针对预先训练的带有后门的目标模型的潜在触发器,其中,所述目标模型针对携带有后门触发器的样本数据的输出为目标标签,所述潜在触发器具有使所述目标模型输出目标标签的功能;响应于确定所述潜在触发器和所述后门触发器满足预设条件,确定所述目标模型为评测用模型;基于所述评测用模型和预设的评测用样本数据,使用待评测的模型解释工具生成显著性信息,其中,所述评测用样本数据中添加有所述后门触发器,所述显著性信息用于显示所述测评用样本数据的各部分对所述评测用模型输出的影响;根据所述显著性信息和所述后门触发器,确定评测指标,其中,所述评测指标用于对所述模型解释工具进行评测。2.根据权利要求1所述的方法,其中,所述预设条件包括所述潜在触发器和所述后门触发器的相似度超过预设阈值。3.根据权利要求1所述的方法,其中,所述方法还包括:响应于确定所述潜在触发器和所述后门触发器未满足所述预设条件,针对所述潜在触发器执行预设的泛化性降低步骤,其中,所述泛化性降低步骤包括:将所述潜在触发器添加到原始样本集的部分原始样本中,而不改变所述原始样本的标签,得到第一样本集;基于所述第一样本集进一步训练所述目标模型,得到调整后模型,以及确定针对所述调整后模型的更新触发器;响应于确定所述更新触发器和所述后门触发器满足所述预设条件,将所述调整后模型确定为评测用模型。4.根据权利要求3所述的方法,其中,所述方法还包括:响应于确定所述更新触发器和所述后门触发器未满足所述预设条件,针对所述更新触发器执行所述泛化性降低步骤,直至确定出评测用模型。5.根据权利要求1所述的方法,其中,所述目标模型是通过以下方式训练得到的:将所述后门触发器添加到原始样本集的部分原始样本中,并将其标签修改为所述目标标签,得到第二样本集;使用所述第二样本集和所述原始样本集中除所述部分原始样本之外的剩余样本,进行模型训练,得到所述目标模型。6.根据权利要求1所述的方法,其中,所述方法还包括:基于多个后门触发器,确定多个评测用模型,以及生成多个评测指标;对所述评测指标和所述多个评测指标进行统计分析,根据统计分析结果对所述模型解释工具进行评测。7.根据权利要求1所述的方法,其中,所述评测用样本数据为图像样本,所述后门触发器为预设图像,所述显著性信息包括显著图;以及所述根据所述显著性信息和所述后门触发器,确定评测指标,包括:根据所述显著图和所述后门触发器计算均交并比,将计算结果作为评测指标。8.根据权利要求1所述的方法,其中,所述评测用样本数据为文本信息,所述后门触发
器为预设文本,所述显著性信息包括所述评测用样本数据的各分词的显著性信息;以及所述根据所述显著性信息和所述后门触发器,确定评测指标,包括:根据显著性信息,从所述评测用样本数据的分词中确定至少一个显著性分词;计算所述至少一个显著性分词和所述预设文本的分词的交并比,将计算结果作为评测指标。9.根据权利要求1所述的方法,其中,所述确定针对预先训练的带有后门的目标模型的潜在触发器,包括:将设定的初始触发器添加到预设的样本数据,得到目标样本数据;以所述目标模型针对所述目标样本数据的输出趋近于所述目标标签为目标,调整所述初始触发器,得到潜在触发器。10.根据权利要求1所述的方法,其中,所述确定针对预先训练的带有后门的目标模型的潜在触发器,包括:基于所述后门触发器进行修改,得到所述潜在触发器。11.一种针对模型解释工具的评测装置,包括:第一确定单元,配置为确定针对预先训练的带有后门的目标模型的潜在触发器,其中,所述目标模型针对携带有后门触发器的样本数据的输出为目标标签,所述潜在触发器具有使所述目标模型输出目标标签的功能;第二...

【专利技术属性】
技术研发人员:李一鸣邱伟峰薛峰江勇夏树涛
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1