基于动态推理决策与信息瓶颈的可解释深度网络构建方法技术

技术编号:35261965 阅读:23 留言:0更新日期:2022-10-19 10:21
本发明专利技术公开了一种基于动态推理决策与信息瓶颈的可解释深度网络构建方法。该方法通过构造动态推理决策模块,建模离散权重通道,提供稀疏多样的离散通道决策路径,根据权重动态选择关键向量特征;同时构造信息瓶颈验证模块,提取卷积层表征中的决策充分互信息,得到最小充分统计量,表征对应网络层压缩后传送的最小信息量,以此分析网络层最小信息量代表的特征。联合损失训练权重,进一步根据关键向量特征和最小充分统计量决定卷积核的删减,动态推理决策每一层的卷积计算,实现深度神经网络的可理解与可解释,同时降低网络计算量。同时降低网络计算量。同时降低网络计算量。

【技术实现步骤摘要】
基于动态推理决策与信息瓶颈的可解释深度网络构建方法


[0001]本专利技术涉及深度学习领域,尤其是深度神经网络可解释性研究领域,在学术领域可用于构建可解释的深度学习模型,也可应用在高风险场景下的工业领域。

技术介绍

[0002]近年来,以深度神经网络模型为代表的新一代人工智能技术迅猛发展。但在带来巨大机遇的同时也蕴含着风险和挑战,深度神经网络模型一个广为诟病的问题是其不透明性、不可解释性。我们称深度学习模型为黑盒模型,因为其内部工作机理无法解释;深度神经网络模型的参数量巨大,消耗的计算成本极高;模型调参现象严重,并且导致人机交互困难。在“大数据+深度学习”范式下,神经网络基于大规模数据进行训练更新参数,根据预测值给出决策结果,但由于其内部参数量极其庞大,演算机制无法解释,导致使用者难以理解其决策的依据。因此,深度神经网络的不可解释性极大地限制其发展与应用,特别是在军事、医疗、金融投资贷款、无人驾驶等高风险决策领域,仅仅提供没有依据的预测结果难以说服用户进行相应的决策。如果深度学习具有解释性,就能够帮助用户理解、认可、信任模型产生的决策,从而推动其在更加广泛场景中的应用。为了解决以上问题,诸多研究人员进行了探索。2016年,德国弗朗霍夫研究所可解释人工智能研究组通过分层相关传播方法实现了从网络输出到输入要素的反向传播过程;2017年美国佐治亚理工学院提出了基于梯度加权类激活映射Grad

CAM方法对卷积神经网络生成视觉解释,这也是可解释领域最常用的可视化方法之一;2018年朱松纯等人提出可解释的CNN,让高层中的滤波器代表特定的局部对象,帮助人们理解CNN内部逻辑;2019年张拳石等人提出了一种对CNN中编码的知识进行语义和定量解释的方法;2020年周博磊等人提出一个CNN分析框架,识别图像分类和图像生成网络中单个隐藏单元的语义。综合近年来可解释性文章,可以将其分为两大类。其一是解释已经构建完成的深度神经网络模型,其方法包括隐层分析、特征分析、模型检查、显著特征分析等。但是,从模型外部解释深度神经网络的技术缺乏深入、严格和统一的理解,理论只是停留在语义层面,因此很难用来反馈提高内部神经网络的可解释性,仅仅为模型的事后解释,无法解释模型内部的工作机制。其二是构建可以理解的深度神经网络模型,方法包括基于规则的局部代理、基于实例构建、基于稀疏性等。但是构建可解释的深度神经网络,会牺牲一部分模型的检测性能,导致可解释性与准确率不能兼顾,其效果相较于不可解释的深层网络有所下降。
[0003]深度神经网络可视化语义分析解释技术已经取得了较大的进展,但是在构建可解释深度神经网络模型及分析网络内部机制方面的工作还有所欠缺。因此本专利技术提出了一种基于动态推理决策与信息瓶颈的可解释深度网络构建方法应用于可解释深度神经网络模型构建过程中。

技术实现思路

[0004]专利技术目的:针对深度神经网络中卷积层内部特征选择过程不可解释的问题,专利技术
基于动态推理决策与信息瓶颈的可解释深度网络构建方法。通过该方法推理深度神经网络卷积层中的决策步骤,降低卷积层计算量,并通过信息瓶颈模块验证步骤的合理性,实现模型压缩与可解释验证。
[0005]技术方案:
[0006]1、基于动态推理决策与信息瓶颈的可解释深度网络构建方法,总体包括以下步骤:
[0007]步骤1.1:构造动态推理决策模块,建模离散权重通道,提供稀疏多样的离散通道决策路径,根据权重动态选择计算路径,动态推理每个卷积层的特征向量,选择权重大的关键向量特征,送入下一层卷积计算;
[0008]步骤1.2:构造信息瓶颈验证模块,用信息瓶颈验证模块提取卷积层表征中的决策充分互信息,得到最小充分统计量,表征对应网络层压缩后传送的最小信息量,以此分析网络层最小信息量代表的特征;
[0009]步骤1.3:将动态推理决策模块和信息瓶颈验证模块放入到需要分析的深度神经网络模型中,对于输入下一层卷积的运算形成目标函数并进行优化训练;
[0010]步骤1.4:根据动态推理决策模块输出的关键向量特征和信息瓶颈验证模块压缩的最小充分统计量决定卷积核的删减,动态推理决策每一层的卷积计算。
[0011]2、所述步骤1.1中动态推理决策模块的方法如下:
[0012]步骤2.1:选取卷积层中原始特征图x
l
‑1,输入至动态推理决策模块;
[0013]步骤2.2:对输入的原始特征图进行激活与池化操作,下采样降维得到m维向量A(x
l
‑1)∈R
m
,并生成m个掩膜通道
[0014]步骤2.3:通过稀疏正则化计算网络层C中L个向量通道的总体稀疏程度,其中l表示L个通道中的某个向量,concat(G1,

,G
L
)是一个N=∑
l
C
l
维的向量,令r表示为超参数稀疏率,则正则化项可以表示为:
[0015][0016]步骤2.4:根据计算的稀疏程度,将稀疏程度为0的掩膜向量抛弃,即不计算该卷积核的卷积计算;
[0017]3、所述步骤1.2中信息瓶颈验证模块的方法如下:
[0018]步骤3.1:根据马尔科夫链Y

X

T和最小化互信息I(X;T)获得X关于Y的最小充分统计量:
[0019]Min
p(T∣x),Y

X

T
{I(X;T)

γI(T;Y)}
[0020]其中,X是输入,Y是输出,T是中间过程量。β表示压缩量超参数,β越小表示压缩量越大。
[0021]步骤3.2:将步骤2.3中获得的关键向量G作为局部表征,步骤3.1中的最小充分统计量T作为全局表征,使用噪声对比估计InfoNCE下界来估计两者互信息。C为网络层数,N为向量维度,G
li
代表第l层的第i个局部表征向量,T
l
表示第l层的全局表征,互信息计算的下边界如下:
[0022][0023]步骤3.3:使用变分信息瓶颈来计算关键向量G与最小充分统计量T的上边界,让Z(T
l
)表示在信息瓶颈压缩过程中表示的信息量,互信息计算的上边界为:
[0024][0025]4、基于动态推理决策与信息瓶颈的可解释深度网络构建方法中总体损失函数为:
[0026][0027]其中,损失函数分为四项,第一项是预测损失,深度神经网络模型表示为f(x
j
),y
j
为标签,交叉熵损失函数。第二项为稀疏正则化项,第三项为互信息下边界,第四项为互信息上边界,α,β,θ为超参数。
[0028]本专利技术的有益效果:
[0029]1、在学术研究领域,将本方法用于构建深度神经网络模型,可以实现深度神经网络卷积模块内部可理解与可解释,获得信息瓶颈上下界的表征,赋予深度神经网络学习边界内的安全性。
[0030]2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于动态推理决策与信息瓶颈的可解释深度网络构建方法,其特征在于,包括以下步骤:步骤1.1:构造动态推理决策模块,建模离散权重通道,提供稀疏多样的离散通道决策路径,根据权重动态选择计算路径,动态推理每个卷积层的特征向量,选择权重大的关键向量特征,送入下一层卷积计算;步骤1.2:构造信息瓶颈验证模块,用信息瓶颈验证模块提取卷积层表征中的决策充分互信息,得到最小充分统计量,表征对应网络层压缩后传送的最小信息量,以此分析网络层最小信息量代表的特征;步骤1.3:将动态推理决策模块和信息瓶颈验证模块放入到需要分析的深度神经网络模型中,对于输入下一层卷积的运算形成目标函数并进行优化训练;步骤1.4:根据动态推理决策模块输出的关键向量特征和信息瓶颈验证模块压缩的最小充分统计量决定卷积核的删减,动态推理决策每一层的卷积计算。2.根据权利要求1所述的基于动态推理决策与信息瓶颈的可解释深度网络构建方法,其特征在于,所述步骤1.1中动态推理决策模块的方法如下:步骤2.1:选取卷积层中原始特征图x
l
‑1,输入至动态推理决策模块;步骤2.2:对输入的原始特征图进行激活与池化操作,下采样降维得到m维向量A(x
l
‑1)∈R
m
,并生成m个掩膜通道步骤2.3:通过稀疏正则化计算网络层C中L个向量通道的总体稀疏程度Ω({G
l
)
L
),其中l表示L个通道中的某个向量,concat(G1,

,G
L
)代表一个N=∑
l
C
l
维的向量;步骤2.4:根据计算的稀疏程度,将稀疏程度为0的掩...

【专利技术属性】
技术研发人员:成科扬司宇周昊张海烽施宇楠余悦
申请(专利权)人:镇江昭远智能科技有限公司南京昭视智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1