一种基于反事实对比的深度神经网络模型可视化解释方法及系统技术方案

技术编号：39490332 阅读：9 留言：0更新日期：2023-11-24 11:12

本发明专利技术公开了一种基于反事实对比的深度神经网络模型可视化解释方法及系统，提出的基于反事实的深度神经网络模型可视化解释方法可以实现对无目标因果问题和有目标因果问题的解释，对有目标因果问题的解释实现了对对抗样本现象的可视化解释，提出了针对不同因果问题的反事实样本生成算法以生成特定的反事实图像，拓展了深度神经网络模型的可视化解释范围，对待解释图像添加强度一致的高斯噪声消除反事实扰动的影响，通过比较扰动噪声图像和反事实图像在深度神经网络模型的内部加权特征图的差异，解耦出对模型决策类别影响强烈的区域，实现了对深度神经网络模型的可视化解释

全部详细技术资料下载

【技术实现步骤摘要】
一种基于反事实对比的深度神经网络模型可视化解释方法及系统

[0001]本专利技术涉及可信人工智能（
AI
）领域，具体涉及一种基于反事实对比的深度神经网络模型可视化解释方法及系统
。

技术介绍

[0002]深度视觉模型被广泛的应用于人机交互
、
自动驾驶
、
安全监控等各个领域，具有广阔的应用场景
。
但利用深度视觉模型进行重大决策时，往往需要知晓算法所给出结果的依据，否则贸然部署会带来严重后果
。
最近的研究发现，针对图像分类任务的深度神经网络模型可以轻易地被恶意构造的对抗样本诱导出错，例如攻击者通过佩戴对抗性眼镜绕过人脸识别系统
。
深度神经网络模型的可解释性是指对模型的决策行为做出清晰地解释，从而使人们了解模型背后的决策依据从而判断决策是否合理
。
深度神经网络模型由于其黑盒特性和内部高度的复杂性
, 导致模型缺乏可解释性造成潜在的安全风险无法感知与防御，对模型的安全应用带来了极大地挑战
。
因此，全面地分析模型内部复杂的决策机理，并结合对抗性噪声来探索模型的内在脆弱性，是提高模型透明性和可靠性的重要前提
。
[0003]然而，深度神经网络模型结构复杂，内部信息抽象，现有的模型可视化可解释技术存在解释只能分析简单因果问题，即“为什么模型认为输入样本的类别是
p
？”而无法解决更复杂的因果问题“为什么模型认为输入的类别是
p
>，而不是类别
q
？”。
同时，现有的可视化解释方法无法解释模型对恶意样本输出异常的缺陷，导致模型依旧面临各种风险，极大地限制了现有的模型现实应用
。

技术实现思路

[0004]本专利技术针对现有可解释性技术存在的问题，提供了一种基于反事实对比的深度神经网络模型可视化解释方法及系统，即提出了针对不同因果问题的反事实样本生成算法生成特定的反事实图像，同时对待解释图像添加强度一致的高斯噪声消除反事实扰动的影响，通过比较扰动噪声图像和反事实图像在深度神经网络模型的内部表达差异，筛选出对模型决策影响强烈区域，实现了对复杂因果问题和对抗样本现象的可视化解释
。
[0005]为了实现上述目的，本专利技术是通过以下技术方案实现：本专利技术公开了了一种基于反事实对比的深度神经网络模型可视化解释方法，包含如下步骤：确定目标深度神经网络模型
F
，获得待解释图像；将待解释图像输入到目标深度神经网络模型
F
中，获得图像的原始类别
p
；获得因果问题
Q
，根据因果问题
Q
是否包含特定目标类别
q
，将其划分为无目标因果问题和有目标因果问题，基于此选择针对待解释图像的反事实样本使用无目标的生成方式或有目标的生成方式；若因果问题
Q
是针对原始类别
p
的无目标因果问题，则使用无目标的生成方式得到反事实图像；若因果问题
Q
是针对特定目标类别
q
的有目标因果问题，则使
用有目标的生成方式得到反事实图像；根据选择的针对待解释图像的反事实样本的生成方式，使用待解释图像针对深度神经网络模型
F
生成
N
张反事实图像，构成反事实图像集合
{}
；通过对待解释图像添加随机高斯噪声，生成
N
张包含高斯扰动的扰动图像，构成噪声图像集合
{}
；使用噪声图像集合
{}
和反事实图像集合
{}
，分别计算针对深度神经网络模型
F
的噪声加权特征图集合
{}
和反事实加权特征图集合
{}
；根据噪声加权特征图集合
{}
，计算平均噪声加权特征图；通过平均噪声加权特征图和反事实加权特征图集合
{}
，计算平均正向特征表达和平均负向特征表达，分别计算每一张反事实图像的正向特征表达和负向特征表达，并求取平均值作为平均正向特征表达和平均负向特征表达；通过平均正向特征表达和平均负向特征表达，使用上采样算法计算得到以热力图形式可视化的正向显著图和负向显著图
。
[0006]作为进一步地改进，本专利技术所述的根据因果问题的内容将其划分为无目标因果问题和有目标因果问题，用于解决不同因果问题的侧重点不同的问题，具体为：无目标因果问题的形式为“为什么模型
F
认为图像的类别是
p
？”，有目标因果问题的形式为“为什么模型
F
认为图像的类别是
p
而不是类别
q
？”，特别的对抗样本现象的解释即对应有目标因果问题，对于无目标因果问题，反事实图像的生成目标为最小化类别
p
的概率；对于有目标因果问题，反事实图像的生成目标为最大化目标类别
q
的概率
。
[0007]作为进一步地改进，本专利技术所述的使用待解释图像针对深度神经网络模型
F
生成反事实图像，具体为：对于无目标因果问题，反事实图像的生成目标为最小化类别
p
在深度神经网络模型
F
全连接层的输出，并保持其他类别在全连接层的输出不变，其优化目标函数为：；其中表示反事实图像输入模型后，在类别
p
上对应的全连接层输出概率；分布距离度量损失采用均方误差衡量反事实图像与带解释图像的在目标类别
p
以外的全连接层输出概率分布的距离，超参数用于平衡两个损失之间的权重，是反事实扰动的最大阈值；对于有目标因果问题，反事实图像的生成目标为最小化类别
p
在深度神经网络模型
F
全连接层的输出，同时最大化目标类别
q
在深度神经网络模型
F
全连接层的输出，并保持除类别和以外其他类别在全连接层的输出概率不变，优化目标函数为：；
；其中，超参数和用于平衡不同损失之间的权重，使用投影梯度下降算法分别对两种目标函数进行求解得到对应的反事实样本
。
[0008]作为进一步地改进，本专利技术所述的计算针对深度神经网络模型
F
的噪声加权特征图集合
{}
和反事实加权特征图集合
{}
，具体为：将噪声图像集合
{}
和反事实图像集合
{}
中的所有图像依次输入到目标深度神经网络模型
F
之中，生成深度神经网络模型
F
对不同输入图像的内部特征表达，所述的加权特征图包含以下计算步骤：1）利用深度神经网络模型
F
的前向传播得到特征图，计算原始类别
p
对于第
k
个特征图的反向传播梯度作为权重，在高度和宽度维度上本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于反事实对比的深度神经网络模型可视化解释方法，其特征在于，包含如下步骤：确定目标深度神经网络模型
F
，获得待解释图像；将待解释图像输入到目标深度神经网络模型
F
中，获得图像的原始类别
p
；获得因果问题
Q
，根据因果问题
Q
是否包含特定目标类别
q
，将其划分为无目标因果问题和有目标因果问题，基于此选择针对待解释图像的反事实样本使用无目标的生成方式或有目标的生成方式；若因果问题
Q
是针对原始类别
p
的无目标因果问题，则使用无目标的生成方式得到反事实图像；若因果问题
Q
是针对特定目标类别
q
的有目标因果问题，则使用有目标的生成方式得到反事实图像；根据选择的针对待解释图像的反事实样本的生成方式，使用待解释图像针对深度神经网络模型
F
生成
N
张反事实图像，构成反事实图像集合
{}
；通过对待解释图像添加随机高斯噪声，生成
N
张包含高斯扰动的扰动图像，构成噪声图像集合
{}
；使用噪声图像集合
{}
和反事实图像集合
{}
，分别计算针对深度神经网络模型
F
的噪声加权特征图集合
{}
和反事实加权特征图集合
{}
；根据噪声加权特征图集合
{}
，计算平均噪声加权特征图；通过平均噪声加权特征图和反事实加权特征图集合
{}
，计算平均正向特征表达和平均负向特征表达，分别计算每一张反事实图像的正向特征表达和负向特征表达，并求取平均值作为平均正向特征表达和平均负向特征表达；通过平均正向特征表达和平均负向特征表达，使用上采样算法计算得到以热力图形式可视化的正向显著图和负向显著图
。2.
根据权利要求1所述的基于反事实对比的深度神经网络模型可视化解释方法，其特征在于，所述的根据因果问题的内容将其划分为无目标因果问题和有目标因果问题，用于解决不同因果问题的侧重点不同的问题，具体为：无目标因果问题的形式为“为什么模型
F
认为图像的类别是
p
？”，有目标因果问题的形式为“为什么模型
F
认为图像的类别是
p
而不是类别
q
？”，特别的对抗样本现象的解释即对应有目标因果问题，对于无目标因果问题，反事实图像的生成目标为最小化类别
p
的概率；对于有目标因果问题，反事实图像的生成目标为最大化目标类别
q
的概率
。3.
根据权利要求1所述的基于反事实对比的深度神经网络模型可视化解释方法，其特征在于，所述的使用待解释图像针对深度神经网络模型
F
生成反事实图像，具体为：对于无目标因果问题，反事实图像的生成目标为最小化类别
p
在深度神经网络模型
F
全连接层的输出，并保持其他类别在全连接层的输出不变，其优化目标函数为：；
其中表示反事实图像输入模型后，在类别
p
上对应的全连接层输出概率；分布距离度量损失采用均方误差衡量反事实图像与带解释图像的在目标类别
p
以外的全连接层输出概率分布的距离，超参数用于平衡两个损失之间的权重，是反事实扰动的最大阈值；对于有目标因果问题，反事实图像的生成目标为最小化类别
p
在深度神经网络模型
F
全连接层的输出，同时最大化目标类别
q
在深度神经网络模型
F
全连接层的输出，并保持除类别
p
和
q
以外其他类别在全连接层的输出概率不变，优化目标函数为：；；其中，超参数和用于平衡不同损失之间的权重，使用投影梯度下降算法分别对两种目标函数进行求解得到对应的反事实样本
。4.
根据权利要求1所述的基于反事实对比的深度神经网络模型可视化解释方法，其特征在于，所述的计算针对深度神经网络模型
F
的噪声加权特征图集合
{}
和反事实加权特征图集合
{}
，具体为：将噪声图像集合
{}
和反事实图像集合
{}
中的所有图像依次输入到目标深度神经网络模型
F
之中，生成深度神经网络模型
F
对不同输入图像的内部特征表达，所述的加权特征图包含以下计算步骤：1）利用深度神经网络模型
F
的前向传播得到特征图，计算原始类别
p...

【专利技术属性】
技术研发人员：王志波，王雪，任奎，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人